1、计算辅助翻译原理与实践俞敬松机器翻译与本地化工程概论(上)Introduction to Machine Translation and Localization Engineering机机器翻器翻译译的的现现状状人所共知、热热闹闹的机器翻译跨越语言障碍的利器低成本、快速获取不精确信息语言服务行业高质量语言-文化的转换跨语言跨文化的沟通交流我们前面提到的:广义的或扩展的翻译目的论语语言服言服务务行行业业中机中机器器翻翻译译有有用用吗吗?1.提高生产效率,降低生产成本2.快速获取低质量译文时,价值更大有用,绝对有用1.生产量上升,但是译员的收入没有增加2.低质量机器翻译译文,无助译员的工作没用,
2、纯粹添堵机机器翻器翻译译在在语语言服言服务务行行业业的的“真相真相”技技术术的适用性的适用性分清楚适用的分清楚适用的领领域与人域与人1.多份报告证明,机器翻译对初级译员有用2.对于资深译员,适当的运用形式也很重要技技术术的形的形态态技技术术形形态态的多的多样样性,切勿眼光僵化性,切勿眼光僵化1.大规模快速批处理翻译2.可定制化的机器翻译引擎(规则、语料)3.译前/译后编辑模式4.交互式机器翻译模式交交互式机互式机器翻器翻译译所以,我所以,我们应该们应该:拥拥抱一切可以提高效率的技抱一切可以提高效率的技术术,而且,而且要走在行要走在行业业的前列;的前列;不断探索新技不断探索新技术术,掌握技,掌握
3、技术发术发展的脉展的脉络络,让让技技术为术为自己所用!自己所用!机器翻译的历史与挑战任何事情只要有需求,就不会缺乏有勇气的挑战者机机器翻器翻译译的的历历史史机器翻译的历史与人类认知的规律一致1930年:真正的“机器翻译”专利Georges Artsrouni and a Russian Petr Troyanskii需求需求热热情情投入投入失失败败冷静冷静再再思考思考再再出出发发Georges Artsrouni and Petr Troyanskii机机器翻器翻译译的的历历史史http:/ pioneers1954-1966The decade ofoptimism1966-1980The
4、aftermath of the ALPAC reportThe 1980sThe early 1990sThe late 1990s2000s机机器翻器翻译译的的现现状状1政治、政治、经济经济的全球化的全球化发发展,需求展,需求牵牵引下的技引下的技术热术热点点2Internet的大的大发发展,信息技展,信息技术术渗透到生活方方面面渗透到生活方方面面3机器翻机器翻译译研究研究获获得了前所未有的基得了前所未有的基础础和和优优越条件越条件语料资源,信息检索,搜索引擎数学工具(概率统计)-计算数学-机器学习4任何任何语语言只要有言只要有语语言言资资源,皆有可能源,皆有可能机机器翻器翻译译使使用于哪用
5、于哪些些领领域域?快速翻快速翻译译粗糙的快速低成本翻译:网站浏览?科技翻科技翻译译与文学相反,与技术打交道更多的领域?受限文本受限文本受限制的文本,比如天气预报译译后后编辑编辑机器翻译后结果需要继续加工,而且有宽容度的场合,比如跨语言信息检索机机器翻器翻译译使使用于哪用于哪些些领领域域?机器翻译哪些地方比人好呢?速度 记忆力成本“不疲倦不抱怨”学得快?安全?那那么哪些么哪些领领域不适域不适合合机器翻机器翻译译呢?呢?传统认传统认知知文学、艺术领域,表达人类情感的文字真相真相机器翻译只是计算机根据人确定的规则,或者自己从大量资料中学习(统计)出来的“规 则”,对文字进行转换只要能够辨识,就有可能
6、执行机器翻译改改变变过去认为不可能的领域,正在逐渐改变机机器翻器翻译译的的主要挑主要挑战战目前看来,对机器翻译非常困难的文本类型:1.文学性作品:散文、小说等;2.双关语、隐语等与语境强相关的内容:笑话等;3.隐藏、非浅层概念的情形:go Greek;4.其他约束条件比较多的情形:歌词,韵文,诗歌等微软的自动写对联我们的认知字-词-句-篇章语法-语义-语用能能解决解决,但,但是依然是依然解解决不好决不好的挑的挑战战获获得正确的用得正确的用词词:1.选择正确的词(词根)2.正确的进行词形变化3.插入“多余的”词汇让词汇让词汇排列成正确的排列成正确的顺顺序序1.语言的分类:SVO vs.SOV,2
7、.语言自己固有的习惯,语法-惯用法3.不同语言之间的差异性转换正确的用正确的用词词-正确正确的的词词根根1.同一同一语语言中,一言中,一词词多多义义如:bank,打2.同一同一语语言中,一言中,一义义多多词词词义的微妙区别,概念的内涵和外延:迅捷,迅猛适用文体、领域的差异性:警察 条子3.不同不同语语言之言之“简简明明汉汉英英词词典典”不靠不靠谱谱不存在:go Greek,lame duck,风水(fen sui)概念之间的落差:狗 dog语域、文体、风格:when in Rome,do as the Romans do.萨萨皮皮尔尔沃沃尔尔夫假夫假说说(SapirWhorf Hypothes
8、is)语语言因其自我成形言因其自我成形:语语言决定言决定论论;一个人的思维完全由母语决定,因为一个人只能根据其母语中编码设定的范畴和区别定义来认识世界;人们的思想在很大程度上是由语言决定的。不同的不同的语语言不能表示同一个社会的言不能表示同一个社会的现实现实:语语言相言相对论对论。语言结构有无限的多样性,因此一种语言系统中所编定的范畴类别和区分定义为该语言系统所独有,与其他语言系统中所编定的范畴类别和区分定义不同。正确的用正确的用词词-正确正确的的词词形形词词形:形:Inflectiongender,number,case,tense,欧洲语言,从西往东中文:非屈折中文:非屈折语语中文-英文:
9、昨天,我去买书了。中文-英文:书买得挺好的啊。正确的用正确的用词词-插入插入“多余的多余的”词汇词汇冠冠词词:Determiners:书:a book,the book,the books介介词词:Prepositions:六月份:in June代代词词:Pronouns:我举手:I raised my hands.连词连词,Conjunction:because:因为,所以正确的用正确的用词词-插入插入“多余的多余的”词汇词汇Have you finished your homework?你做完作业了吗?(省略和添加)President Barack Obama of US美国总统奥巴马(惯
10、例省略,对异种文化不习惯)Day after day he came to his work-sweeping,scrubbing,cleaning.扫地,擦地板,收拾房间获获得正确的得正确的句子句子-语语序序SVO(Subject-Verb-Object)languagesEnglish,German,French,Mandarin I baked a pizzaSOV LanguagesJapanese,HindiVSO languagesIrish,Classical Arabic,Tagalog获获得正确的得正确的句子句子-语语序序VP+PP vs.PP+VPVP+AdvP vs.Ad
11、vP+VPAdj+N vs.N+AdjNP+PP vs.PP NPNP+S vs.S NP普通话:你先走。粤语:你走先床上 on the bed窗外 outside the windowjump on the bed 在床上跳获获得正确的得正确的句子句子-特定特定语语言的言的规则规则,惯惯用用法法普通话:你先走。粤语:你走先。Why do you think that he came yesterday?你为什么认为他昨天来了?为什么你认为他昨天来了?她把功课写完了。She finished her homework.他把墙挖了一个洞。He dug a hole in the wall.他把句
12、子皮剥了。She peeled the oranges skin.机器翻译的主要方法人类的认知是不断深入的,学科之间的借鉴很重要学外语的通常过程:背单词:拼写和意义学模版,套用反复练习:接受:读、听产出:说、写语语言学言学习习和和翻翻译译过过程程:人:人类类PK 机机器器训练翻译机器对词汇找翻译套模版,找规则语法特点的处理学到的规则越多越好?语语言学言学习习和和翻翻译译过过程程:人:人类类PK 机机器器译员译员翻翻译过译过程程:1.理解原文的句子2.澄清语义3.产出译文机器翻机器翻译过译过程程1.句法分析、语义分析2.词级别转换、短语级别转换、树结构级别转换3.按照特定语言进行后处理4.有真正
13、的语义吗?机机器翻器翻译译需需要哪些要哪些语语言言资资源源?语语料料库库,最重要的,最重要的语语言言资资源源单语平衡语料库,单语领域语料库(目标语,学习怎么产出)平行语料库(至少篇章对齐,句对齐语料库使用最多)可比语料库(对于领域翻译工作而言,很有用)翻翻译词译词典:双典:双语对应语对应/对对照照的的叙词表,WordNet,FrameNet,HowNet机机器翻器翻译译需需要哪些要哪些语语言言资资源源?自然自然语语言工具:言工具:tokenizer,morph analyzer,parser模版,翻模版,翻译规则译规则基于传统语言学的语法规则基于样例的基于统计提取的语语言言资资源越多,机器翻源
14、越多,机器翻译译越有可能越有可能产产出高出高质质量量结结果果主主要的机要的机器器翻翻译实译实现现方法方法1.基于转换的方法,Transfer-based乔姆斯基的形式化转换语法2.基于中间语言的方法,Interlingua都向英语转化;向人造的形式化语言转化3.基于实例的方法,Example-based(EBMT)大致可以类比于翻译记忆,要复杂很多4.基于统计的方法,Statistical MT(SMT)翻译工作完全类比于密码破译工作5.复合方法,Hybrid approach综合运用多种策略机机器翻器翻译译的的三角架三角架构构(版本(版本一一)WordWordMeaningTransfer-
15、basedPhrase-based SMT,EBMTWord-based SMT,EBMT(interlingua)机机器翻器翻译译的的三角架三角架构构(版本版本二二)基基于于转换转换的的机器翻机器翻译译方法方法基基于于转换转换的的机器翻机器翻译译方法方法分析,分析,转换转换,生成,生成形态分析,句子分析,生成句法树根据规则转换句法树,调序翻译原文词汇,形态转换最后合并及调整词汇和句法结构,得到最后结果需要需要资资源:(源:(语语言学家最重要言学家最重要!)!)源语言句法分析器翻译词典(可能也会有附加规则)转换规则集合转转换实换实例例我昨天我昨天买买了了书书1.句法分析S我-time-adv昨
16、天-V买(了)-O书2.转换 S V O adv3.词汇转换I buy book yesterday.4.词形规则I buy a book(books)yesterday.5.时态修正规则I bought a book(books)yesterday.基基于于转换转换的的机器翻机器翻译译方法方法形形态态分析,句法分析,分析,句法分析,Parsing语言学远未到能完整刻画人类语言的地步,分析的正确率比较低转换转换基于上下文无关文法,但是真的无关吗?每个层次都有规则,规则有无冲突?冲突后如何调整?规则库初期增加,再增加,“按下葫芦起来瓢”语言规则库能否自动生成?基基于于转换转换的的机器翻机器翻译译
17、方法方法词汇转换词汇转换:基于辞典,必定带来问题规则写不胜写语语言生成言生成其他知识系统如何引入?中中间语间语言,言,Interlingua中中间语间语言,言,Interlingua对于 n 种语言,我们需要 n 种从这些语言向中间转换的 MT 系统,以及 n 种反向转换的 MT 系统就足够任意两种语言双向翻译了;翻翻译译系系统统的的设计设计:n种语言的分析器,n种生成器就可以中中间语间语言,言,Interlingua中中间语间语言:言:中间语言能够做到语言中立(独立)吗?人造语言好?英语好?需要的需要的资资源:源:独立于语言的表达,中间语言非常复杂,必须挖掘到语义层级的分析程序非常复杂的生成
18、程序基于基于实实例的例的机器翻机器翻译译-EBMT基本想法:基本想法:翻译句子的时候参考句对齐语料库中最相近的原有翻译句子来处理 长尾真 Nagao(1981)。基于基于语语料的料的训练训练:w1 w2 w3 w4-w1 w2 w3 w4w5 w6 w7-w5 w6 w7w8 w9-w8 w9翻翻译译:w1 w2 w6 w7 w9-w1 w2 w6 w7 w9对齐语对齐语料料库库完全可以看做完全可以看做规则库规则库!基于基于实实例的例的机器翻机器翻译译-EBMT基于基于实实例的机器翻例的机器翻译译的的类类型:型:1.浅层的词汇级别转换2.形态分析转换,词性转换3.基于语法树的转换(深层)EBM
19、T需要的需要的资资源:源:1.句对齐的平行语料库2.双语词典3.词汇语义分析工具,比如叙词表,按类转换(例子稀疏)4.句法分析工具5.部分依赖于规则和规则库统计统计式机器式机器翻翻译译-SMT想法来源:想法来源:二战中,二战后,密码破译技术信息理论的发展,噪声-信道理论源源语语言,密文:目言,密文:目标语标语言,明文:破言,明文:破译译基基础础,语语料料库库所有所有规则规则全部用机器自全部用机器自动动从从语语料料库库中学中学习习得到得到“每当我解雇一个语言学家的时候,机器翻译的水平就提高一点”统计统计式机器式机器翻翻译译-SMT主要主要类类型:型:1.基于词汇的2.基于短语的3.基于层次短语的
20、4.基于语法的(串-树,树-串,树-树)统计统计式机器式机器翻翻译译-SMT好好处处:1.非常容易建立,甚至在语言资源充足的时候,可以在几个小时内完成一种全新的机器翻译程序2.只要有足够语料,就有足够好的翻译系统弱点:弱点:1.人类既有的知识不容易加入系统2.翻译过程不直观,不易于理解和解释,以及改进复复合方合方法法综综合运用各种方法的合运用各种方法的长处长处,克服其缺点,克服其缺点基于基于语语法的法的转换转换方法:方法:有直观的、人可以理解的语言学意义基于基于实实例的例的转换转换:可以使用n-gram语法进行改进,memory-based基于基于统计统计的方法:的方法:数学基础好,一切都可以
21、自动化,不受人的能力制约复复合方合方法法SMT+EBMT:基于短语的、层次短语的统计机器翻译EBMT+SMT:自动添加语义资源库,自动词族聚合Transfer-based+SMT:自动学习规则,自动学习辞典,规则添加统计概率信息串行使用:串行使用:一种方法的输出改进或补充另一种方法的输入并行使用:并行使用:结合各种方法,对输出进行优选和融合各各种方法种方法所所需要的需要的计计算算组组件件和和语语言言资资源源Transfer-basedInterlinguaEBMTSMTdictionary+Transfer rules+parser+(?)semanticanalyzer+parallel d
22、ata+othersUniversalrepresentationthesaurus机器翻译嵌入计算机辅助翻译软件译员可用,与普通人可用是有很大区别的机机器翻器翻译译系系统统可以可以帮帮助助译员译员工工作的方作的方法法机器翻机器翻译预处译预处理理事先把文章翻译一遍,供译员快速理解事先处理可以翻译的词汇、术语本地化工程中,模拟人的翻译结果预先改进程序机器翻机器翻译结译结果作果作为为参考参考译译文文机器翻机器翻译结译结果作果作为为人工翻人工翻译译的制的制导导交互式机器翻译交交互式机互式机器器翻翻译译的的过过程程在在SDL Trados 中使用机器中使用机器翻翻译译在在SDL Trados 中使用机器中使用机器翻翻译译在在SDL Trados 中使用机器中使用机器翻翻译译在在SDL Trados 中使用机器中使用机器翻翻译译
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1