华哥

GF 2024-04-27 20:19

（喜欢屁股）

只看GF | | 小中大

求助，有人懂如何去掉TXT文本的干扰码吗

下载了一个小说资源，里面都是干扰码，这要怎么才能去掉

顶端

388d08a6

B1F 2024-04-27 20:21

| ▼展开

只看该作者 | | 小中大

久已

B2F 2024-04-27 20:25

（真是没办法呢（[sell=0] 出售内容 [/sell]））

只看该作者 | | 小中大

下个正常点的小说

顶端

慧无伤

B3F 2024-04-27 20:30

（慧无伤）

只看该作者 | | 小中大

笨办法的话，复制粘贴替换

顶端

深渊_星辰

B4F 2024-04-27 20:35

只看该作者 | | 小中大

这种的基本没办法，用批量替换的方法容易删去正常的内容

顶端

潮吹小王子

B5F 2024-04-27 20:36

（头像是ipx-565）

只看该作者 | | 小中大

回楼主(华哥) 的帖子

写个程序呗，把这些特殊字符删掉就行了

顶端

dc5c1b69

B6F 2024-04-27 20:37

只看该作者 | | 小中大

正则表达式，搜索，替换
https://tool.oschina.net/regex/

以前做盗版小说爬虫就是用这个去某些网站的广告字符

顶端

trlaitioer

B7F 2024-04-27 20:41

只看该作者 | | 小中大

正则呗，行尾英文+数字+英文符号+空白符

顶端

KevenMill

B8F 2024-04-27 21:38

（投席！）

只看该作者 | | 小中大

用ChatGPT写个正则匹配吧，可以删掉这些有规矩的字符

顶端

哈美哈美哈

B9F 2024-04-27 23:23

（良言一句三冬暖，恶语伤人六月寒）

只看该作者 | | 小中大

如果干扰码只在行尾的的话。直接用正则从行尾贪婪匹配：
(。.*$)
替换为：(。)
“。”更换为有干扰码行尾的标点符号

如果不在意标点符号的话，直接匹配到汉字：
([^\u4e00-\u9fa5]*$)
替换为空值就行

顶端

华哥

B10F 2024-04-28 09:25

（喜欢屁股）

只看该作者 | | 小中大

引用
引用第9楼adec3cd0于2024-04-27 23:23发表的 :
如果干扰码只在行尾的的话。直接用正则从行尾贪婪匹配：
(。.*$)
替换为：(。)
“。”更换为有干扰码行尾的标点符号

.......

大佬能搞个批处理文件吗，这种小说有好多个

顶端

华哥

B11F 2024-04-28 09:57

（喜欢屁股）

只看该作者 | | 小中大

引用
引用第6楼dc5c1b69于2024-04-27 20:37发表的 :
正则表达式，搜索，替换
https://tool.oschina.net/regex/

以前做盗版小说爬虫就是用这个去某些网站的广告字符

感谢，但是小说有好多用这个太麻烦了

顶端

09df66ae

B12F 2024-04-28 10:33

只看该作者 | | 小中大

回 11楼(华哥) 的帖子

用notepad++ 打开多个文件同时替换。

顶端

华哥

B13F 2024-04-28 10:49

（喜欢屁股）

只看该作者 | | 小中大

引用
引用第8楼4db15def于2024-04-27 21:38发表的 :
用ChatGPT写个正则匹配吧，可以删掉这些有规矩的字符

刚刚用ChatGPT写了一个，不知道为啥点击没反应。。。

顶端

魂单

B14F 2024-04-28 10:50

只看该作者 | | 小中大

用正则表达式按照逗号和句号将其分割成一个个字符串，然后通过判断其中是否存在汉字，将不存在汉字的字符串给删掉就行

顶端

华哥

B15F 2024-04-28 11:57

（喜欢屁股）

只看该作者 | | 小中大

引用
引用第14楼c34faf59于2024-04-28 10:50发表的 :
用正则表达式按照逗号和句号将其分割成一个个字符串，然后通过判断其中是否存在汉字，将不存在汉字的字符串给删掉就行

一两篇文这样做当然没问题，但是我有差不多2万篇文，这样干得累死

顶端

华哥

B16F 2024-04-28 11:59

（喜欢屁股）

只看该作者 | | 小中大

有大佬能写一个软件吗，搞了大半天发现bat这种脚本无法满足我的要求

顶端

高大肥白美

B17F 2024-04-28 12:04

（世間女子皆禍根唯有兩度討歡心）

只看该作者 | | 小中大

从初始网页复制到word文档一般会有字体大小等区别不难筛掉

已经存在txt里就……

顶端

华哥

B18F 2024-04-28 12:29

（喜欢屁股）

只看该作者 | | 小中大

回 12楼(09df66ae) 的帖子

没想到是用你说的这个软件解决的，这个软件真的神了

顶端

漫区特设

蜜柑计划

综合交流

人民囧府

求助，有人懂如何去掉TXT文本的干扰码吗

回楼主(华哥) 的帖子

引用

引用

回 11楼(华哥) 的帖子

引用

引用

回 12楼(09df66ae) 的帖子

漫区特设

蜜柑计划

综合交流

人民囧府

求助，有人懂如何去掉TXT文本的干扰码吗

回 楼主(华哥) 的帖子

引用

引用

回 11楼(华哥) 的帖子

引用

引用

回 12楼(09df66ae) 的帖子

回楼主(华哥) 的帖子