Responsive image

猫与好天气 - 2018-01-16 04:41 [GF]
不知道扔哪个区扔这里好了....如果不合适麻烦管理转一下区谢谢...


那啥...最近在练爬虫...

然后就盯上了某个号称全中国最全的官能小说站...

一共接近50,000本...

然后今天找了点时间写了个py脚本把全部页面扒下来用Beautifulsoup批量转换成TXT...

自己抽查了几十本,貌似没啥问题,老实说后期质量不是很高,还有不少重复和缺失的...总之自己慢慢找喜欢的吧...

共47,957本,处理过后的txt文档大小为1.4GB,约7亿字左右...

此帖售价 0 SP币,已有 2925 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

引用
Q:部分小说不全.
A:绝大多数是因为网站本身没有收录全的缘故,我也无能为力...

Q:部分小说没有换行
A:也是因为网站本身就这样的缘故,推荐使用带自动换行的APP阅读或者自行替换,例如可以在word内将。替换为^p

Q:这是哪个网站?
A:见购买框

Q:下载or解压失败.
A:文件已加恢复记录,请自行修复.

Q:是如何处理的?
A:用批处理批量将页面下载下来,然后用BeautifulSoup转换成txt,这是我写的烂代码,请使用python3.6以上的版本安装Beautifulsoup运行即可,运行前请用文本编辑器修改py文件内的html和输出路径


只是个练习一样的玩意.只要不是用于非法目的,转载请随意,不用标注我的ID...


Yunnt - 2018-01-16 05:17 [B1F]
我的妈!!多少??
1个g的小说???


77妳画 - 2018-01-16 05:31 [B2F]
6666这么多


武行天地 - 2018-01-16 07:33 [B3F]
这网站怎么打不开?被墙了?


殇羽 - 2018-01-16 07:42 [B4F]
很强势的大佬....


花开岭上 - 2018-01-16 08:25 [B5F]
哦,这边也发了,仓鼠症患者虽说不一定会看也已经在隔壁收啦


屌中战斗机 - 2018-01-16 08:28 [B6F]
   厉害了我滴哥


秋日胜春朝 - 2018-01-16 08:42 [B7F]
这么多字,天哦


wps999 - 2018-01-16 08:45 [B8F]
我就喜欢收集这些福利了,谢谢分享啊


调教大队 - 2018-01-16 08:46 [B9F]
厉害了 几年都看不完啊


渎神战士 - 2018-01-16 08:47 [B10F]
妈个鸡
厉害了
再也不用四处去扒各种奇妙的网站了


鲁恩斯 - 2018-01-16 08:49 [B11F]
这要看不完了


- 2018-01-16 09:09 [B12F]
用户被禁言,该主题自动屏蔽!


lilium233 - 2018-01-16 09:13 [B13F]
大佬666


HWTS - 2018-01-16 09:21 [B14F]
马克回家下


逆回十六夜 - 2018-01-16 09:21 [B15F]
好吧 我还以为是霓虹的官能小说  


Arno - 2018-01-16 09:25 [B16F]
我的乖乖


延迟ASS - 2018-01-16 09:29 [B17F]
这么可怕


eso2Miej - 2018-01-16 09:33 [B18F]
非常难得的资源,各位大人一定要多多珍重哟


座下走狗 - 2018-01-16 09:53 [B19F]
楼主很强,虽然是以一种很简单的语气说出了自己做的事,但在下依然感觉如听天书一般,只感觉到了大佬的牛批


Nidhogg - 2018-01-16 09:54 [B20F]
厉害了,战略性马克


奥托.阿波卡利斯 - 2018-01-16 09:55 [B21F]
这么闲,厉害了


kaka - 2018-01-16 10:00 [B22F]
感谢分享,下载备着


圣代复元古 - 2018-01-16 10:04 [B23F]
膜拜Python大佬


哥儿 - 2018-01-16 10:15 [B24F]
大神,多谢了


jishigan - 2018-01-16 10:18 [B25F]
没想到这里也能说这句话
“感谢楼主分享”


396f6781 - 2018-01-16 10:21 [B26F]
不知道有没有“一脸嫌弃的和我造人”这部。


鸡儿放假? - 2018-01-16 10:22 [B27F]
Python厉害了,还可以先用批处理来下载,思路新颖


18628608 - 2018-01-16 11:31 [B28F]
良心资源呢


黑魂绅士 - 2018-01-16 12:18 [B29F]
这字数怕是看完了就能变盒子了


d4487c58 - 2018-01-16 12:35 [B30F]
厉害了我的哥






桌面版


Powered by SP Project v1.0 © 2010-2019
Time 0.146092 second(s),query:4 Gzip enabled


Top