1303680.jpg

accelerate12138

GF  2021-01-24 22:57
(accelerate12138)

[全年龄正常向]求问爬虫问题[s:717],sp随你开

最近在写个小代码:https://www.south-plus.net/read.php?tid-1072365.html

但是今天测试,数据量一大就被e站限制了
ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接

在不sleep的情况下,我能想到的办法也只有代理池。。但是好用的代理池也不容易找到

所以求问一下好用的代理池,或者其他能解决e站反爬的办法
我记得看见好多爬e站下本子的大佬。。我这还不是下本子这么大的负荷。。只是搜索然后获取标签而已。。结果就被反爬了
此帖悬赏结束
最佳答案: 20 SP币
最佳答案获得者: 0c8c6b04

5977fe9f8b654.jpg

[lv.max]|ω•`)

B1F  2021-01-25 10:47
(能补的都补了,剩下的我手头也没有资源了……)
e站对下本子(下图片)的限制其实是比下本子元数据(标签啥的)小的,毕竟有H@H帮忙分发,很多情况下只要不超过IP下图的配额就没事儿了。但是之前爬元数据的时候没爬多久就会被ban IP,次数越多ban的时间越长。
最佳答案奖励: (+20) SP币

none.gif

daxiong

B2F  2021-01-24 23:19
([sell=0] 出售内容 [/sell])
开了多线程?
热心助人奖励: (+1) SP币

5977fe9f8b654.jpg

[lv.max]|ω•`)

B3F  2021-01-25 10:50
(能补的都补了,剩下的我手头也没有资源了……)
顺便如果只是要爬标签的话,感觉可以试试nhentai?我看那上面的标签也挺全的。
热心助人奖励: (+1) SP币

888581.png

ExAllocatePool

解决不了 只能用代理了
热心助人奖励: (+1) SP币

1303680.jpg

accelerate12138

B5F  2021-01-24 23:27
(accelerate12138)

回 1楼(daxiong) 的帖子

单线程 就一个简单的response = requests.get(url,headers = headers)
多线程岂不是更容易就ban了我

1303680.jpg

accelerate12138

B6F  2021-01-24 23:31
(accelerate12138)
不是,感觉有点离谱。。我加了个sleep五秒依然爬了七八条数据就被ban了   
e站反爬这么严格的吗 就不给点活路

1303680.jpg

accelerate12138

B7F  2021-01-25 12:03
(accelerate12138)

回 4楼([lv.max]|ω•`)) 的帖子

感谢大佬告知 确实忽略了H@H的作用   

1303680.jpg

accelerate12138

B8F  2021-01-25 12:07
(accelerate12138)

回 5楼([lv.max]|ω•`)) 的帖子

对啊,我怎么没想到     
标签的话喵绅士做的也不错……还是中文的。。省的自己再汉化了
感谢大佬     

逛久了里站。。有点轻视喵绅士 这波啊,这波是是尺有所短寸有所长

1303680.jpg

accelerate12138

B9F  2021-01-25 12:24
(accelerate12138)

回 1楼([lv.max]|ω•`)) 的帖子

感谢指点 不然我这个想法可能就真进行不下去了  
开了个帖子,一点小sp,不成敬意  
https://www.south-plus.net/read.php?tid=1078992

648437.jpg

Me

B10F  2021-01-25 22:42
(↑↑↓↓←→←→BA)
一般反爬,我们的思路是通过header判断,有的加上token,还有的通过加载文件判断,爬虫不加载全部网页,此外就是设定阀值,每分钟访问超出就ban 你可以参考反爬的策略修改