一、前言1.本文仅针对拔作,且只讨论得到文本后的机翻操作,不讨论剧本提取回封和游戏破解。
2.由于本人不会写代码,以下提出的所有问题的解决方案都是利用一些现成工具,部分步骤会稍显繁琐拙劣,如果有条件的可以自己写代码来代替。
3.本文虽然探讨的是机翻,但也有需要人脑处理的部分,不过人脑主要用来弥补当今翻译工具的不足之处以及一些重复劳动的批量自动化,基本不会出现人脑对某文本的单独处理(处理也是针对一类文本的批量处理)。所以一些会写翻译工具的大佬也可以看看我的一些做法,直接写进翻译软件中,也是非常好的。
4.因为实际过程比较繁琐,中途许多步骤都是一笔带过。
二、机翻工具选择工欲善其事必先利其器,所以选择最好的机翻工具肯定是最重要的。
本人所能了解和使用的也就Jbeijing和其他api(例如腾讯、百度、有道),VNR由于其不能批量处理全部文本从而不在我考虑范围内。
简单说下个人用下来的结论:
各类api完爆Jbeijing,但对拔作有明显缺陷。
我目前最常用的翻译工具是kr吧森森大佬的翻译姬,原理就是接各种API(例如腾讯)进行翻译,相比之下最明显的点就是Jbeijing那些僵硬而前后倒置的语序在这些api中都能较好的改善。所以当时我第一遍教师3机翻是全部用api跑下来的,顺利看懂日常部分完全没问题,但是在润色的时候发现了一些尴尬点:
1. 在拔作中占大多数的某些拟声词,在各大api中并没有得到很好的体现(好好的乖巧少女就算发脾气也不要随口就是TMD啊喂)
2. 一些涉及H的词汇被翻译成各种神奇的物品(这个其实是最主要原因,但上面那个太让人忍不了了,遇到过印象最深的就是把“和她做”翻译成了“宰了她”,拔作瞬间变成了惊悚片)
3. 人名的问题,一些人名在文中会用日本字代替,例如“あさひ“”,在同一api中会被识别成“朝阳、朝日、日向”以及一些稀奇古怪的东西。而即使是汉字的人名,例如“美月”,在部分api的部分语句中也会被识别成“美月亮”。
4. 片假名是一个重灾区,日常到还好,如果是人名或者H部分词汇带有片假名的基本都没有办法正确翻译,并且同一api前后还错的各不一样,完全不能批量修正。
首先提一个个人观点作为下述前体:在拔作中,H部分句子的重要性大于剧情部分的句子。即H部分的翻译优先度永远是先于剧情部分的(这个仁者见仁智者见智吧,我感觉一些机翻组的作品在日常文本中表现甚至接近人工润色,但是到H部分的时候就明显欠缺细致,猜测可能是在侧重点上不同)。而各大api对H部分的表现显然没达到我要的标准,而且因为翻译花样百出而会对之后的批量自动处理带来极大难度。
在有了上述前提后,各大api对H文本的处理困难就是迫切要解决的问题了,我把解决思路回到Jbeijing,这时就看到了其相对闪光点:Jbeijing虽然语序堪忧,但却能自行定义各种词汇的译语。所以只要各大api不更新H词汇专用翻译库,Jbeijing永远是我心目中H部分最好的选择。
解决了H文本的问题后,经过观察日常剧情部分很少会出现各种H词汇和拟声词,片假名也基本都是比较常见的。所以日常文本只要能解决人名问题后再利用api翻译,相比Jbeijing明显是利大于弊的。
行文至此,机翻工具就定下了:
Jbeijing翻译H部分+api翻译其余(需改善人名问题)(顺便说一下这里的H部分其实不是特指的Hcene时的文本,而是指包含有拟声词、H词汇、以及各种片假名较多的句子,很明显这些词汇在H部分出现比较多,其他部分虽然可能也有但相对较少,为了分类方便就全部划到H部分,识别错误几率不会太大)
然后我用的api是腾讯,不是因为其翻译效果最好,相反是我用下来语序通顺度是所有api里较低的,但可能正是因为其对原文的直译味浓,所以其对同一词汇的错翻相似度比较高,在后期容易进行批量处理。
三、建立筛选表确定机翻工具后的问题显而易见:如何区分拔作中的句子该送入那个机翻工具翻译。
即我需要通过一个工具来筛选出含有H部分的句子。由于对文本进行处理的软件我了解不多,条件限制下选择了用excel进行处理。
对于判断公式,因为本文只讲理论所以我只是大致讲一下思路了
1. 取一些H部分才容易出现的词语和标点,统计其在句子中出现总数。
2. 将其与整句长度做减法和除法,得到系数,凭经验选择分界线来粗略划分。
3. 对于特定Jbeijing优于api的重要翻译词,给予“一票否决权”,即出现该词语就进入Jbeijing翻译途径。
4. 鉴于Jbeijing在一些长句中翻译实在难懂,判断一些有“一票否决权”的句子长度与重要词汇占比,如果过长就放弃将其送入Jbeijing,转为api。
四、机翻前处理文本已经分了类,接下去就直接机翻吗?当初我就是这么做的完全没问题,但是在翻译前对原文进行一些小细节上的优化,能让翻译质量更好。(因为这部分完全是各种翻译工具使用中出现的问题,所以也没啥理论好讲的,直接讲解决思路,可能有些并不能完全规避,算是一些抛砖引玉,这部分可能需要不少时间,只是给可能想在机翻质量上精益求精的人看的,可以跳过)
a.对于送入Jbeijing文本的前处理1. 所有的标点符号(如逗号、省略号等)前后加空格——解决一些Jbeijing后文中的名词副词跑到前文中的问题
2. 部分经过1修改后导入Jbeijing会出现无法正常翻译的情况,找到规律后应去掉该处空格
3. 去掉了一部分不影响句意但会翻错且难以纠正的状态词(想举例子一下子又举不出来,不是特别大的改动各位就看看吧)
4. 为了便于找到需要润色的名词,筛选文本中的一些含片假名的优先详细润色。(这条单纯是为了节约一些时间成本而舍弃了一小部分机翻质量,曾经不做这步的时候我机翻一个游戏时间可能需要1个月左右,而使用了之后则变为2-5天,感觉比较有用所以也写出来了)
b.对于送入腾讯api文本的前处理根据上文所述,需要对人名和一些片假名进行处理,同时在机翻时我还找到了其他问题。
1.去掉带片假名的“ABABと”副词,因为这些词在各种api均不能很好翻译,且本身也只是起一些拟声或是加强形象度的作用(大多)。
2.找到出现频次较高的带有各种人名和片假名的句子(建议在2Dfan之类的游戏介绍网站看简介找到这些日语),放到腾讯的网页翻译上看看能不能正确翻译,若能则不管,若不能则替换成“腾讯翻译能准确识别的常见人名”。
例如:在黑兽中出现的黑暗精灵名字是ミスティオラ,找到包含着它的一句话“揶揄するように語ったミスティオラに、ディレクがその魁偉なペニスで頬を突いてくる。”放入腾讯翻译君网站发现被翻译成了“米斯蒂奥拉”,换一句放进去又发现变成了“米斯特奥拉”,那么就将原文中所有的ミスティオラ换成“真紀”,等翻译完成后再将“真纪”换成自己想要的“蜜丝黛奥拉”就可以。
五、机翻机翻主要需要注意的其实就是一些翻译姬和Jbeijing设置上的问题,这边就不展开来讲了
六、翻译后处理
a.对于送入Jbeijing文本的后处理有很多小点但感觉说太多又不好,所以就写一点点吧
1.首先就是在Jbeijing中对一些没有定义的人名、H词汇和片假名进行定义,有时间也可以对其他部分进行优化。(稍微有些技巧但是自己探索归纳也不难发现)
2.在导出Jbeijing后,利用现有批量替换库进行替换。(Jbeijing中部分原文并不具有特异性但译文有,但自身无法对译文进行处理,所以就在导出后做)
需要注意:
2.1.每次替换的词语是否具有特异度,即可不可能今后出现在正确的文本中导致错误。这其实也不是绝对,而是个权衡的过程,个人的意见是:综合考虑修改是否对H部分有帮助以及词语可能出现的概率。假设“精液”在Jbeijing中被翻译成“石楠花”,你就要将“石楠花”替换为“精液”,众所周知“精液”这个词汇在H部分中的地位是不可或缺的,而石楠花出现的频次极少且隐含的H成分并不足以和精液相比,所以这次替换是可行的,当然无法权衡时取“精液(石楠花)”这样全写的替换也是可以接受的。
2.2如果在后面润色时发现前面的替换有错误,先在已形成错误基础上进行修改,实在不行再考虑删掉之前的替换。(即错误1替换为错误2,那错误2如果能替换为正确那么就不用删掉前一步替换)
3.译文语句判别的优化(例如针对上述四、a.2中没翻译的查找,或译文中带英文的进行优先润色。因为正常语句中很少出现英文。整个过程我也是用的excel)
4.“先生”这个词是我找不到方法来鉴别的词语,日语中先生、小姐都是一个词,再加上Jbeijing有时候会将拟声词“哈”翻成先生,所以建议在excel中搜索然后手动润色。
b.对于送入腾讯api文本的处理腾讯中的由于是非H部分,而且腾讯api也在不断变动,所以批量处理不需要做的特别好,主要重心可放在流程优化上,要讲的东西相对Jbeijing少所以我尽量把整个讲清楚点。
首先腾讯api会出现一些api才会出现的问题,需要一些小步骤去尽量减少之。
1. 判断其中带有大写字母和未翻译的。因为很多都是腾讯api的原因,所以找到后先全部用腾讯云翻译(这个和腾讯翻译不是同一个,但是结果很相似所以选了它)再跑一遍。然后找还是不符合的进行标注。
2. 找译文长度过短的,原文部分句子腾讯翻译会只翻一半,严重影响观感,也是一样用腾讯云翻译跑一遍。然后找还是不符合的进行标注。
3. 再找译文比原文长太多的,因为部分句子腾讯翻译会将某段反复翻译,也是严重影响观感,并且不符合我使用的文本导入工具要求,先用腾讯云跑一遍,还是长再用百度跑一遍。然后找还是不符合的进行标注。
4. 再找译文比原文短太多的,防止2的漏网之鱼。腾讯云翻译1次后无需标注。
5. 找带有小写字母的,情况同1(不要问我为什么分开写,我已经写得脑子都快卡了)。
6. 人工润色上述标注的语句。顺便看看能不能随缘将一些词语加入批量库。(算是api中需要花最多人脑的步骤了吧)
7. 将前述人名改回
8. 批量处理一些常见错误文本
9. 查找带引号文本,因为之前腾讯云翻译会在莫名其妙的地方加上引号和稀奇古怪的文本。人工润色,顺便看看能不能随缘将一些词语加入批量库。
10. 利用excel查找带“你、我、ta”的文本(因为在搞支配1的时候发现,腾讯翻译老是会自己补充主语,所以要将其中多出来的去掉)。具体逻辑比较繁琐就不讲了。同时一些H相关但在日常文本中也可能出现的名词(例如“雄性”、“绝顶”一类的)也可以在这步进行优化。
整个过程差不多就这样了,其中遇到的一些问题和解决思路也简单讲了,虽然我知道对大多数人没什么用就是了。