Responsive image

accelerate12138 - 2021-01-24 22:57 [GF]
最近在写个小代码:https://www.south-plus.net/read.php?tid-1072365.html

但是今天测试,数据量一大就被e站限制了
ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接

在不sleep的情况下,我能想到的办法也只有代理池。。但是好用的代理池也不容易找到

所以求问一下好用的代理池,或者其他能解决e站反爬的办法
我记得看见好多爬e站下本子的大佬。。我这还不是下本子这么大的负荷。。只是搜索然后获取标签而已。。结果就被反爬了


daxiong - 2021-01-24 23:19 [B1F]
开了多线程?


accelerate12138 - 2021-01-24 23:27 [B2F]
单线程 就一个简单的response = requests.get(url,headers = headers)
多线程岂不是更容易就ban了我


accelerate12138 - 2021-01-24 23:31 [B3F]
不是,感觉有点离谱。。我加了个sleep五秒依然爬了七八条数据就被ban了   
e站反爬这么严格的吗 就不给点活路


[lv.max]|ω•`) - 2021-01-25 10:47 [B4F]
e站对下本子(下图片)的限制其实是比下本子元数据(标签啥的)小的,毕竟有H@H帮忙分发,很多情况下只要不超过IP下图的配额就没事儿了。但是之前爬元数据的时候没爬多久就会被ban IP,次数越多ban的时间越长。


[lv.max]|ω•`) - 2021-01-25 10:50 [B5F]
顺便如果只是要爬标签的话,感觉可以试试nhentai?我看那上面的标签也挺全的。


ExAllocatePool - 2021-01-25 11:53 [B6F]
解决不了 只能用代理了


accelerate12138 - 2021-01-25 12:03 [B7F]
感谢大佬告知 确实忽略了H@H的作用   


accelerate12138 - 2021-01-25 12:07 [B8F]
对啊,我怎么没想到     
标签的话喵绅士做的也不错……还是中文的。。省的自己再汉化了
感谢大佬     

逛久了里站。。有点轻视喵绅士 这波啊,这波是是尺有所短寸有所长


accelerate12138 - 2021-01-25 12:24 [B9F]
感谢指点 不然我这个想法可能就真进行不下去了  
开了个帖子,一点小sp,不成敬意  
https://www.south-plus.net/read.php?tid=1078992


Me - 2021-01-25 22:42 [B10F]
一般反爬,我们的思路是通过header判断,有的加上token,还有的通过加载文件判断,爬虫不加载全部网页,此外就是设定阀值,每分钟访问超出就ban 你可以参考反爬的策略修改






桌面版


Powered by SP Project v1.0 © 2010-2019
Time 0.001659 second(s),query:3 Gzip enabled


Top