登录
|
注册
桌面版导航
搜索
社区论坛任务
停止自动跳转移动版
桌面版首页
南+ South Plus
询问&求物
求问爬虫问题[s:717],sp随你开
accelerate12138
- 2021-01-24 22:57
[GF]
最近在写个小代码:
https://www.south-plus.net/read.php?tid-1072365.html
但是今天测试,数据量一大就被e站限制了
:
ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接
在不sleep的情况下,我能想到的办法也只有代理池。。但是好用的代理池也不容易找到
所以求问一下好用的代理池,或者其他能解决e站反爬的办法
我记得看见好多爬e站下本子的大佬。。我这还不是下本子这么大的负荷。。只是搜索然后获取标签而已。。结果就被反爬了
回复
daxiong
- 2021-01-24 23:19
[B1F]
开了多线程?
回复
accelerate12138
- 2021-01-24 23:27
[B2F]
单线程
就一个简单的response = requests.get(url,headers = headers)
多线程岂不是更容易就ban了我
回复
accelerate12138
- 2021-01-24 23:31
[B3F]
不是,感觉有点离谱。。我加了个sleep五秒依然爬了七八条数据就被ban了
e站反爬这么严格的吗
就不给点活路
回复
[lv.max]|ω•`)
- 2021-01-25 10:47
[B4F]
e站对下本子(下图片)的限制其实是比下本子元数据(标签啥的)小的,毕竟有H@H帮忙分发,很多情况下只要不超过IP下图的配额就没事儿了。但是之前爬元数据的时候没爬多久就会被ban IP,次数越多ban的时间越长。
回复
[lv.max]|ω•`)
- 2021-01-25 10:50
[B5F]
顺便如果只是要爬标签的话,感觉可以试试nhentai?我看那上面的标签也挺全的。
回复
ExAllocatePool
- 2021-01-25 11:53
[B6F]
解决不了 只能用代理了
回复
accelerate12138
- 2021-01-25 12:03
[B7F]
感谢大佬告知
确实忽略了H@H的作用
回复
accelerate12138
- 2021-01-25 12:07
[B8F]
对啊,我怎么没想到
标签的话喵绅士做的也不错……还是中文的。。省的自己再汉化了
感谢大佬
逛久了里站。。有点轻视喵绅士
这波啊,这波是是尺有所短寸有所长
回复
accelerate12138
- 2021-01-25 12:24
[B9F]
感谢指点
不然我这个想法可能就真进行不下去了
开了个帖子,一点小sp,不成敬意
https://www.south-plus.net/read.php?tid=1078992
回复
Me
- 2021-01-25 22:42
[B10F]
一般反爬,我们的思路是通过header判断,有的加上token,还有的通过加载文件判断,爬虫不加载全部网页,此外就是设定阀值,每分钟访问超出就ban
你可以参考反爬的策略修改
回复
回复
表 情
桌面版
Powered by
SP Project
v1.0
© 2010-2019
Time 0.001659 second(s),query:3 Gzip enabled
Top