那么如何从大量文本中尽可能多的筛选出带有这些特征的句子从而让调教好的Jbeijing翻译呢,可能方法很多,我的是:利用EXCEL评估文本的某些特征,并设置截断值来判断(凭多年机翻的经验吧)。
具体来说有两条:
1、某些拟声词常见标点和日文的长度 占 原文长度 过多 以及 某些H相关词汇 占 原文长度关过多 以及 某些片假名 占 原文长度关过多。
标点包括
"「""」""("")""!""?""…""~"" "
H词汇太多就不写了,直接看公式就好
在excel里面的公式是(假设A1放着原文)
B1=182*LEN(A1)-LEN(SUBSTITUTE(A1,"!",""))-LEN(SUBSTITUTE(A1,"?",""))-LEN(SUBSTITUTE(A1,"、",""))-LEN(SUBSTITUTE(A1,"…",""))-LEN(SUBSTITUTE(A1,"。",""))-LEN(SUBSTITUTE(A1,"う",""))-LEN(SUBSTITUTE(A1,"ぅ",""))-LEN(SUBSTITUTE(A1,"あ",""))-LEN(SUBSTITUTE(A1,"ぁ",""))-LEN(SUBSTITUTE(A1,"ア",""))-LEN(SUBSTITUTE(A1,"ァ",""))-LEN(SUBSTITUTE(A1,"ク",""))-LEN(SUBSTITUTE(A1,"っ",""))-LEN(SUBSTITUTE(A1,"お",""))-LEN(SUBSTITUTE(A1,"ぉ",""))-LEN(SUBSTITUTE(A1,"ォ",""))-LEN(SUBSTITUTE(A1,"オ",""))-LEN(SUBSTITUTE(A1,"フ",""))-LEN(SUBSTITUTE(A1,"ッ",""))-LEN(SUBSTITUTE(A1,"ン",""))-LEN(SUBSTITUTE(A1,"ん",""))-LEN(SUBSTITUTE(A1,"ハ",""))-LEN(SUBSTITUTE(A1,"え",""))-LEN(SUBSTITUTE(A1,"ぇ",""))-LEN(SUBSTITUTE(A1,"エ",""))-LEN(SUBSTITUTE(A1,"ェ",""))-LEN(SUBSTITUTE(A1,"ぃ",""))-LEN(SUBSTITUTE(A1,"イ",""))-LEN(SUBSTITUTE(A1,"ィ",""))-LEN(SUBSTITUTE(A1,"ひ",""))-LEN(SUBSTITUTE(A1,"ヒ",""))-LEN(SUBSTITUTE(A1,"へ",""))-LEN(SUBSTITUTE(A1,"ヤ",""))-LEN(SUBSTITUTE(A1,"ゃ",""))-LEN(SUBSTITUTE(A1," ",""))-LEN(SUBSTITUTE(A1,"~",""))-LEN(SUBSTITUTE(A1,"ぺ",""))-LEN(SUBSTITUTE(A1,"ぷ",""))-LEN(SUBSTITUTE(A1,"ゅ",""))-LEN(SUBSTITUTE(A1,"「",""))-LEN(SUBSTITUTE(A1,"」",""))-LEN(SUBSTITUTE(A1,"ぴ",""))-LEN(SUBSTITUTE(A1,"ロ",""))-LEN(SUBSTITUTE(A1,"ペ",""))-LEN(SUBSTITUTE(A1,"だめ",""))-LEN(SUBSTITUTE(A1,"メ",""))-LEN(SUBSTITUTE(A1,"おっぱい",""))-LEN(SUBSTITUTE(A1,"気持ち",""))-LEN(SUBSTITUTE(A1,"くださ",""))-LEN(SUBSTITUTE(A1,"いや",""))-LEN(SUBSTITUTE(A1,"すご",""))-LEN(SUBSTITUTE(A1,"もう",""))-LEN(SUBSTITUTE(A1,"もっと",""))-LEN(SUBSTITUTE(A1,"キ",""))-LEN(SUBSTITUTE(A1,"変",""))-LEN(SUBSTITUTE(A1,"なんて",""))-LEN(SUBSTITUTE(A1,"はい",""))-LEN(SUBSTITUTE(A1,"ぐりぐり",""))-LEN(SUBSTITUTE(A1,"くりとりす",""))-LEN(SUBSTITUTE(A1,"ウ",""))-LEN(SUBSTITUTE(A1,"どくどく",""))-LEN(SUBSTITUTE(A1,"いっぱい",""))-LEN(SUBSTITUTE(A1,"かかっ",""))-LEN(SUBSTITUTE(A1,"けど",""))-LEN(SUBSTITUTE(A1,"あなた",""))-LEN(SUBSTITUTE(A1,"エ",""))-LEN(SUBSTITUTE(A1,"れろ",""))-LEN(SUBSTITUTE(A1,"先っぽ",""))-LEN(SUBSTITUTE(A1,"ビ",""))-LEN(SUBSTITUTE(A1,"にゅ",""))-LEN(SUBSTITUTE(A1,"ル",""))-LEN(SUBSTITUTE(A1,"ジ",""))-LEN(SUBSTITUTE(A1,"ニ",""))-LEN(SUBSTITUTE(A1,"ュ",""))-LEN(SUBSTITUTE(A1,"\b",""))-LEN(SUBSTITUTE(A1,"我慢汁",""))-LEN(SUBSTITUTE(A1,"すう",""))-LEN(SUBSTITUTE(A1,"ピ",""))-LEN(SUBSTITUTE(A1,"ヂ",""))-LEN(SUBSTITUTE(A1,"パ",""))-LEN(SUBSTITUTE(A1,"チ",""))-LEN(SUBSTITUTE(A1,"こく",""))-LEN(SUBSTITUTE(A1,"ぐ",""))-LEN(SUBSTITUTE(A1,"中",""))-LEN(SUBSTITUTE(A1,"また",""))-LEN(SUBSTITUTE(A1,"ぢ",""))-LEN(SUBSTITUTE(A1,"ズ",""))-LEN(SUBSTITUTE(A1,"コ",""))-LEN(SUBSTITUTE(A1,"しごいて",""))-LEN(SUBSTITUTE(A1,"グ",""))-LEN(SUBSTITUTE(A1,"ケ",""))-LEN(SUBSTITUTE(A1,"ム",""))-LEN(SUBSTITUTE(A1,"ぶ",""))-LEN(SUBSTITUTE(A1,"レ",""))-LEN(SUBSTITUTE(A1,"りゅ",""))-LEN(SUBSTITUTE(A1,"プ",""))-LEN(SUBSTITUTE(A1,"ツ",""))-LEN(SUBSTITUTE(A1,"ラ",""))-LEN(SUBSTITUTE(A1,"カ",""))-LEN(SUBSTITUTE(A1,"リ",""))-LEN(SUBSTITUTE(A1,"ド",""))-LEN(SUBSTITUTE(A1,"ダ",""))-LEN(SUBSTITUTE(A1,"べ",""))-LEN(SUBSTITUTE(A1,"ボ",""))-LEN(SUBSTITUTE(A1,"マ",""))-LEN(SUBSTITUTE(A1,"ャ",""))-2*LEN(SUBSTITUTE(A1,"ケツ",""))-LEN(SUBSTITUTE(A1,"ス",""))-LEN(SUBSTITUTE(A1,"ト",""))-LEN(SUBSTITUTE(A1,"ョ",""))-LEN(SUBSTITUTE(A1,"セ",""))-LEN(SUBSTITUTE(A1,"感",""))-LEN(SUBSTITUTE(A1,"ネ",""))-LEN(SUBSTITUTE(A1,"デ",""))-LEN(SUBSTITUTE(A1,"ヌ",""))-LEN(SUBSTITUTE(A1,"いい",""))-LEN(SUBSTITUTE(A1,"テ",""))-LEN(SUBSTITUTE(A1,"センセイ",""))-LEN(SUBSTITUTE(A1,"アクメ",""))-LEN(SUBSTITUTE(A1,"ローション",""))-LEN(SUBSTITUTE(A1,"ー",""))-LEN(SUBSTITUTE(A1,"シ",""))-LEN(SUBSTITUTE(A1,"入",""))-LEN(SUBSTITUTE(A1,"くび",""))-LEN(SUBSTITUTE(A1,"いつ",""))-LEN(SUBSTITUTE(A1,"たまらんな",""))-LEN(SUBSTITUTE(A1,"キンタマ",""))-LEN(SUBSTITUTE(A1,"お尻",""))-LEN(SUBSTITUTE(A1,"穴",""))-LEN(SUBSTITUTE(A1,"穴",""))-LEN(SUBSTITUTE(A1,"はしたない",""))-LEN(SUBSTITUTE(A1,"ぶっかけ",""))-LEN(SUBSTITUTE(A1,"いやらしい",""))-LEN(SUBSTITUTE(A1,"襞",""))-LEN(SUBSTITUTE(A1,"中",""))-LEN(SUBSTITUTE(A1,"出",""))-LEN(SUBSTITUTE(A1,"オカズ",""))-LEN(SUBSTITUTE(A1,"キツく",""))-LEN(SUBSTITUTE(A1,"ぶちまけ",""))-LEN(SUBSTITUTE(A1,"元気",""))-LEN(SUBSTITUTE(A1,"エロ",""))-LEN(SUBSTITUTE(A1,"オシッコ",""))-LEN(SUBSTITUTE(A1,"イヤらしい",""))-LEN(SUBSTITUTE(A1,"無理",""))-LEN(SUBSTITUTE(A1,"パイズリ",""))-LEN(SUBSTITUTE(A1,"スケベ",""))-LEN(SUBSTITUTE(A1,"オツユ",""))-LEN(SUBSTITUTE(A1,"おしっこ",""))-LEN(SUBSTITUTE(A1,"潮",""))-LEN(SUBSTITUTE(A1,"噴",""))-LEN(SUBSTITUTE(A1,"ザーメン",""))-LEN(SUBSTITUTE(A1,"おちんちん",""))-LEN(SUBSTITUTE(A1,"せーえき",""))-LEN(SUBSTITUTE(A1,"の中",""))-LEN(SUBSTITUTE(A1,"デカい",""))-LEN(SUBSTITUTE(A1,"よが",""))-LEN(SUBSTITUTE(A1,"たぎ",""))-LEN(SUBSTITUTE(A1,"ケツ",""))-LEN(SUBSTITUTE(A1,"ケツ",""))-LEN(SUBSTITUTE(A1,"当",""))-LEN(SUBSTITUTE(A1,"当",""))-LEN(SUBSTITUTE(A1,"当",""))-LEN(SUBSTITUTE(A1,"飛",""))-LEN(SUBSTITUTE(A1,"飛",""))-LEN(SUBSTITUTE(A1,"飛",""))-LEN(SUBSTITUTE(A1,"クセ",""))-LEN(SUBSTITUTE(A1,"アクメ",""))-LEN(SUBSTITUTE(A1,"るる",""))-LEN(SUBSTITUTE(A1,"—",""))-LEN(SUBSTITUTE(A1,"びゆ",""))-LEN(SUBSTITUTE(A1,"カウパー",""))-LEN(SUBSTITUTE(A1,"ピース",""))-LEN(SUBSTITUTE(A1,"しご",""))-LEN(SUBSTITUTE(A1,"しご",""))-LEN(SUBSTITUTE(A1,"すげぇ",""))-LEN(SUBSTITUTE(A1,"じ",""))-LEN(SUBSTITUTE(A1,"ず",""))-LEN(SUBSTITUTE(A1,"★",""))-LEN(SUBSTITUTE(A1,"☆",""))-LEN(SUBSTITUTE(A1,"~",""))-LEN(SUBSTITUTE(A1,"ぽ",""))
C1=IF(LEN(A1)-LEN(SUBSTITUTE(A1,"「",""))+LEN(A1)-LEN(SUBSTITUTE(A1,"」",""))+LEN(A1)-LEN(SUBSTITUTE(A1,"(",""))+LEN(A1)-LEN(SUBSTITUTE(A1,")",""))=0,B1,B1+5*LEN(A1)-LEN(SUBSTITUTE(A1,"!",""))-LEN(SUBSTITUTE(A1,"?",""))-LEN(SUBSTITUTE(A1,"…",""))-LEN(SUBSTITUTE(A1,"~",""))-LEN(SUBSTITUTE(A1," ","")))
D1=LEN(A1)-C1
然后截断值设置成6,也就是说D1小于等于6的就用Jbeijing来进行机翻。
E1=C1/LEN(A1)
然后截断值设置成0.5,也就是说E1大于0.5的就用Jbeijing来进行机翻。
「ククククッ、胸を責められてイッたと思ったら、マンコを締めながらまた乳噴きかよっ! 本当にエロいチチだなっ!」
例如这一句话,最后算出的D1=9,E1=0.8,因为E1>0.5,所以会在之后的机翻中送入Jbeijing翻译
我们再来人工分析下这句话,很明显有些片假名,还有拟声词
腾讯机翻
“咯咯!我还以为胸口被责备了,一边勒紧芒科,一边又喷奶呢!真是个色情的家伙啊!”
百度机翻
“库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库库克
有道机翻
“咕噜咕噜,我以为他在责备我的胸部,没想到他一边掐着馒头,一边又喷奶了!真是个好色的父亲啊!”
调教后Jbeijing机翻
「哼哼,(被…)责弄胸刚想去了,一边拧紧蜜穴又(要)一边(吗)乳喷哟! 是真的色情胸部(父亲)!」
最后是彩云机翻
「咯咯咯,刚觉得自己胸部受到了责备而高潮,就一边勒着小穴一边又喷奶了! 真是个色情小子! 」
单比较腾讯、百度、有道和被调教后的Jbeijing,肯定是Jbeijing错误率最低,当然Jbeijing自身存在句子通顺度问题,可能一部分人宁可翻译错误也不能接受主谓颠倒,反正我是没这种习惯的。
不得不说彩云的机翻要是能经过调教应该还是很能打的,但是我一开始机翻时有道和彩云还没出api。同时用Jbeijing的另一大好处是各大API最后都会逐渐限制字数转向盈利,以后200多W文本的拔作要是用api去机翻可能加个会很高,而Jbeijing是离线软件啥时候都能用。