742193.jpg

华哥

GF  2024-04-27 20:19
(喜欢屁股)

求助,有人懂如何去掉TXT文本的干扰码吗

下载了一个小说资源,里面都是干扰码,这要怎么才能去掉

388d08a6


1664913.jpg

久已

B2F  2024-04-27 20:25
(真是没办法呢([sell=0] 出售内容 [/sell]))
下个正常点的小说

none.gif

慧无伤

B3F  2024-04-27 20:30
(慧无伤)
笨办法的话,复制粘贴替换

none.gif

深渊_星辰

这种的基本没办法,用批量替换的方法容易删去正常的内容

1493775.jpg

潮吹小王子

B5F  2024-04-27 20:36
(头像是ipx-565)

回 楼主(华哥) 的帖子

写个程序呗,把这些特殊字符删掉就行了

none.gif

dc5c1b69

正则表达式,搜索,替换
https://tool.oschina.net/regex/

以前做盗版小说爬虫就是用这个去某些网站的广告字符

none.gif

trlaitioer

正则呗,行尾 英文+数字+英文符号+空白符

6e8038e76bb0708d42fd8.jpg

KevenMill

B8F  2024-04-27 21:38
(投席!)
用ChatGPT写个正则匹配吧,可以删掉这些有规矩的字符

1533108.png

哈美哈美哈

B9F  2024-04-27 23:23
(良言一句三冬暖,恶语伤人六月寒)
如果干扰码只在行尾的的话。直接用正则从行尾贪婪匹配:
(。.*$)
替换为:(。)
“。”更换为有干扰码行尾的标点符号

如果不在意标点符号的话,直接匹配到汉字:
([^\u4e00-\u9fa5]*$)
替换为空值就行

742193.jpg

华哥

B10F  2024-04-28 09:25
(喜欢屁股)
引用
引用第9楼adec3cd0于2024-04-27 23:23发表的  :
如果干扰码只在行尾的的话。直接用正则从行尾贪婪匹配:
(。.*$)
替换为:(。)
“。”更换为有干扰码行尾的标点符号

.......

大佬能搞个批处理文件吗,这种小说有好多个

742193.jpg

华哥

B11F  2024-04-28 09:57
(喜欢屁股)
引用
引用第6楼dc5c1b69于2024-04-27 20:37发表的  :
正则表达式,搜索,替换
https://tool.oschina.net/regex/

以前做盗版小说爬虫就是用这个去某些网站的广告字符

感谢,但是小说有好多用这个太麻烦了

none.gif

09df66ae

回 11楼(华哥) 的帖子

用notepad++ 打开多个文件同时替换。

742193.jpg

华哥

B13F  2024-04-28 10:49
(喜欢屁股)
引用
引用第8楼4db15def于2024-04-27 21:38发表的  :
用ChatGPT写个正则匹配吧,可以删掉这些有规矩的字符

刚刚用ChatGPT写了一个,不知道为啥点击没反应。。。

none.gif

魂单

用正则表达式按照逗号和句号将其分割成一个个字符串,然后通过判断其中是否存在汉字,将不存在汉字的字符串给删掉就行

742193.jpg

华哥

B15F  2024-04-28 11:57
(喜欢屁股)
引用
引用第14楼c34faf59于2024-04-28 10:50发表的  :
用正则表达式按照逗号和句号将其分割成一个个字符串,然后通过判断其中是否存在汉字,将不存在汉字的字符串给删掉就行

一两篇文这样做当然没问题,但是我有差不多2万篇文,这样干得累死

742193.jpg

华哥

B16F  2024-04-28 11:59
(喜欢屁股)
有大佬能写一个软件吗,搞了大半天发现bat这种脚本无法满足我的要求

1370145.jpg

高大肥白美

B17F  2024-04-28 12:04
(世間女子皆禍根 唯有兩度討歡心)
从初始网页复制到word文档 一般会有字体大小等区别 不难筛掉

已经存在txt里就……

742193.jpg

华哥

B18F  2024-04-28 12:29
(喜欢屁股)

回 12楼(09df66ae) 的帖子

没想到是用你说的这个软件解决的,这个软件真的神了