当前位置:文档之家› 一本翻译界能读懂的机器翻译著作

一本翻译界能读懂的机器翻译著作

一本翻译界能读懂的机器翻译著作
一本翻译界能读懂的机器翻译著作

一本翻译界能读懂的机器翻译著作

——评《语义组合与机器翻译》

孙洪山

(济南大学外国语学院,山东省济南市,250022)

摘要:本文从5个方面评价了学术专著《语义组合与机器翻译》,认为该著是一本朴素的学术专著,是一本

翻译界能读懂的机器翻译著作。机器翻译一直是翻译界讳莫如深但又很难涉足的领域,该著揭开了机器翻

译的神秘面纱,便于译界更加深入了解机器翻译。

关键词:《语义组合与机器翻译》,机器翻译,翻译界

中图分类号: H059 文献标识码:B

机器翻译的终极目标在于代替人类从事翻译活动(Koehn, 2010:xi)。不论这个目标(更确切的说法是“梦想”)能否实现,机器翻译与翻译者的关系是十分密切的。翻译工作者应该关注这个能够帮助自己,甚至将来抑或会取代自己的“新生事物”。实际上,机器翻译已经不是一个新鲜的概念了(Hutchins, 2000:xii),广大的翻译工作者已经接受了“机器翻译”的概念,市场上某些机器翻译软件也让译者们见识了“机器翻译”的翻译效果。然而,翻译界对于机器翻译的“误读”从而产生“排斥”的趋势却越来越明显。其原因之一就在于机器翻译论著太“深奥”、太“专业”,翻译界读不懂。 “复杂的自然语言处理教材是为计算机程序员而非语言学家编写的(Covington,2007:601)。”实际情况也大抵如此,因为机器翻译一般被认为是自然语言处理技术的应用,其研究通常是在人工智能、信息技术和统计模型等领域进行的,语言研究尤其是翻译研究对机器翻译研究的深度不够。当然研究深度不够不是因为翻译界“避重就轻”,不去了解和关注机器翻译的原理和实现过程,而是因为机器翻译所涉及的各种计算机算法和数学公式实在太复杂——似乎翻译界完成不了这个工作。这又回到了机器翻译研究的主体问题,翻译界能不能做机器翻译研究?

张霄军博士的专著《语义组合与机器翻译》(科学出版社,2010)给这个问题做了肯定的回答。就作者的学科背景而言,他是语言学专业的科班出身(硕士就读专业为外国语言学与应用语言学,博士就读专业为语言学与应用语言学)。就该书内容而言,国内计算机专家和语言学家都给出了很高的评价(见该著封底)。笔者是一名普通的翻译教学工作者,长期关注机器翻译研究现状,通读此书,得出的一句评价是:该书是笔者所阅读过的机器翻译著作中最容易读懂的。这样的结论基于该书以下几点特色:

(1)作者擅用图表来解释难点,避免使用大量难懂的数学公式。第3章在构建面向机器翻译动词选择的“双语动词语义词典(BiVSD)”时,作者使用组合流程图(见该著第71页)的形式说明了BiVSD的内部构成;第5章用流程图的形式(见该著第95页)清楚地表明了基于规则或者中间语的机器翻译系统工作流程和本书主要研究对象处理的全过程。一般的机器翻译著作在介绍机器翻译原理,尤其是统计机器翻译原理时,总会使用大量的数学公式,而该书在概括机器翻译研究方法时只用了噪声信道模型的数学公式。第6章(第6.3节)在建立机器翻译译文评价方法——“模糊综合评判法”数学模型时,作者先给出了

一个带有假设值的数学模型,之后以翻译案例的形式阐释了该模型的应用情况。这样的话,

尽管后面有具体的数值运算,读者因为有了前面对该数学模型的先行理解所以也不会感到突兀和难以接受。

(2)作者对机器翻译原理的介绍(参见该书第4和第5章)既有宏观的概括,又有微观的详解。在宏观概括机器翻译研究方法时,对于各种研究方法,作者不只是简单的介绍,还包括对各种方法优劣点的评价。如在介绍IBM统计机器翻译方法时,作者写道:“从理论上说,IBM 模型只考虑了词与词之间的线性关系,没有考虑句子结构的非线性关

系。当两种语言的语序相差较大时,效果可能不太好。如果在考虑语言模型和翻译模型时,将

句法结构或语义结构考虑进来,才能得到更好的结果。”(第86页)

该著的主要研究内容是英汉机器翻译系统中动词的译词选择问题,通过“动词译词选择”这个研究主题可以很好地微观阐释机器翻译的全过程。该书第5章详细分析了动词译词选择的各步骤,在机器翻译原理介绍的每个细节上都注意到了内容的普适性。

(3)作者巧妙地把语言研究和机器翻译联系在了一起,而这种联系同时又是解决机器翻译“义障”的有效途径。不管采用语言学规则,还是利用统计学知识,语义始终是自然语言处理绕不过去的瓶颈,词义的模糊性、歧义性和多样性是影响自然语言理解的主要原因。对机器翻译来说更是如此——这是一种跨语言的词义消歧,即寻找跨语言的语义对应关系。该书采取的解决方案是利用语义的组合模式。这是一种很朴素但很实用的思想:如果源语和目标语的单词之间的语义对应关系难以确定的话,那我们可以扩大对象——单词的特定义项难以确定,那么几个组合在一起的词语序列的义项则是相对固定的。这就是语义组合。语义组合模式中既包括词汇的语义特征组合,也包括语法语义特征。在语义组合研究过程中,细心的张博士还发现了“主观性语义特征”,并将其也纳入了语义组合模式之中。

(4)作者对研究对象的选择方法既有语言学界惯用的“人工内省法”,也有计算机学界常见的“自动筛检法”。首先,通过知识库融合的方法从英语FrameNet和英汉双语HowNet中自动生成了常见的英语多义动词839个,在大量真实语料和词典例句语料的基础

上对其语义特征组合模式进行了人工归纳总结,共提取英语多义动词的5,092种语义组合

模式。在每种模式中,作者都给出了该英语动词相对应的汉语可选译词。在此基础上构建了供机器翻译译词选择所“专用”的“双语动词语义词典(BiVSD)”,利用BiVSD中这

5,000余种语义组合模式及其所涉及英语动词的汉语可选译词,辅以动词语法语义特征,

机器翻译系统就可以准确判断出该动词在一个具体语境中的恰当译词,从而选择出恰当的

译词。

(5)该书研究体系完整,内容翔实。很明显,作者的研究目的不仅仅是要找到源语和目标语动词相对应的语义组合模式,而且要将这种研究方法应用到机器翻译实践中去。因此,他将机器翻译中的“译词选择”作为论文的另一重要内容。换句话说,他在完成了源语动词的语义消歧和目标语译词的语义消歧之后,还完成了目标语译词的生成。最后,为了验证这种方法的有效性,他又将“译文质量评测”纳入了研究范畴,设计了验证实验,实验结果

表明利用语义组合模式进行译词的语义选择是有效的。这样的话,从理论分析到语义组合模式提取,再到语义组合模式应用,最后到方法有效性检验,全书的结构就很完整了,结论

也很有说服力。

当然,本书也有不足和改进之处,作者自己在第7.3和7.4节(第164-167页)也提到了一些。笔者想就另一点改进之处再提一下:该书是在作者博士毕业论文基础上修改而成的,诚如他在“后记”以及其导师在“前言”中所提到的——该书的研究对象839个多义英语动词的语义组合特征模式的提取工作是在作者毕业后才完全完成的。造成这种结果的原因在

于这5,000多种语义组合模式的提取工作全部都是作者在真实语料考查基础上人工归纳的非常耗时耗力,可以想见作者研究工作的艰辛。我们是否可以考虑借助机器辅助的方式来完成这一工作呢?

总而言之,这是一本朴素的学术专著,是一本“外行”能读懂的专业书。希望以后能够出现更多的翻译界能读懂的机器翻译著作。

参考文献

[1] Covington, M.A. 2007. Book Review:An Introduction to Language Processing with Perl and Prolog[R]. Computational Linguistics, 33:4, pp.601.

[2]Hutchins,W.J.2000.Preface:Early Years in Machine Translation[R].Amsterdam/Philadelphia:John Benjamins Publishing Company, pp.xii.

[3] Koehn, P. 2010. Preface: Statistical Machine Translation[R]. New York: Cambridge University Press, pp.xi.

Review of Semantic Combination and Machine Translation

Sun Hongshan

(Foreign Languages School of Jinan University, Jinan / Shandong, 250022)

Abstract:The review evaluates the book of Semantic Combination and Machine Translation and concludes that it is a simple academic monograph and an understandable MT book in Chinese translation literature. Machine translation is a difficult study field to the translators. This book is helpful for the researchers to know more about machine translation.

Keywords:Semantic Combination and Machine Translation; machine translation; translation literature

作者简介(可选):(内容字号:楷体小五)

人工智能与机器翻译习题答案.doc

2、产生式系统有哪些类型? 1正向、逆向、双向产生式系统 2可交换的产生式系统 3可分解的产生式系统 3、试举例说明不可撤|口|搜索方法的基本思想? 这种方法相当于沿着单独一条路搜索下去,利用问题给出的局部知识决定如何选取规则, 就是说根据当前可靠的局部知识选一条可应用规则并作用于当前综合数据库。接着再根据新状态继续选取规则,搜索过程一直进行,不必考虑撤回用过的规则。 9、试说明产生式系统规则不一致的原因及解决方法。 原因:规则集中存在的不一致是影响系统性能的重要因素之一。系统建立初期,由于规则集较小,内容也比较简单,设计人员能对每一条规则的条件和结论部分反复推敲和精心构造,这类问题容易防止。但随着时间的推移,新的规则不断加入,规则集合越来越大,内容也越来越丰富,这时规则间的相互影响和相互联系就随之变得复杂。在此情况下,规则的不一致就将自然产生, 解决:(1) 对于循环规则,可构造规则集的IF-THEN图,从起始规则的条件部分开始搜索,如果搜索过程中遇到的THEN部分已在前面出现,就可以中断搜索,规则集中包含的循环规则子集合需设计人员检查,解决; (2)对于冲突规则,构造IF-IF表,对规则集内有相同的IF规则子句构造规则树,形成推理图。同时建立THEN-THEN表用以判断是否有冲突规则出现。对相同IF部分的规则继续用它的各自THEN部分作为其它可以匹配的IF前提条件,递归地构造,如发现两个推理图上分别有节点在THEN-THEN表上是矛盾的,则检测出冲突规则,人工予以解决。 (3)对冗余规则和从属规则的检查类似于冲突规则链的方法.不同之处是前者在推理图中的遍历是试图发现有THEN部分等价的两条规则。 1、机器翻译主要有娜些方法?这些方法各有什么特点? 1基于分析和转换的机器翻译方法 这样的方法有两个特点:一是面向源语言分析,因为源语言中的一个句子已经由句法、语义分析等阶段分析完毕,生成了关于源语言句子的某种中间表示,转换以这种源语言中间表示作为输入;二是直接转换,即对于S表示,直接给出译文形式,一般不需要在目标语言内再作进一步转换,Tl~Tj可以直接包括目标语言的词汇,也可以是对应于Sl~Si的译文组块。 2基于中间语言的翻译方法 基于中间语言的机器翻译方法主要有两个优点。首先,独立的中间表示形式为多语种之间的互译的实现提供了一种经济有效的途径。假设要对N种语言进行互译,则有N*(N.1)个语言对。不同方向的翻译是不同的语言对。此时如果采用基于转换的方法,因为把一种语言翻译成另一种语言都需要一个不同的转换机制(或模块),所以N火(N?l)个语言对共需要N*(N-1)个独立的转换机制。而采用中间语言的方法,由于对每一种语言只需实现将该种语言翻译成中间语言和把中间语言翻译成该种语言的目标语言这样两个模块,所以总共只需要2N个模块。其次,中间语言不仅是对基于中间语言的机器翻译方法这一特定目的有意义, 同时,作为一种通用的自然语言表示,也值得深入研究。 4.1.3基于统计的机器翻译方法 基于统计的机器翻译方法,一般不要任何语言学知识,它的基木原理是实现源语言词汇到目标语言浏汇的映射。其思路受到语音识别研究的启发,因而应用了类似的方法来实现。研究者用

机器翻译技术介绍

机器翻译技术介绍
常宝宝 北京大学计算语言学研究所 chbb@https://www.doczj.com/doc/9e11845153.html,

什么是机器翻译
研究目标:研制出能把一种自然语言(源语言)的文 本翻译为另外一种自然语言(目标语言)的文本的计 算机软件系统。 制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 随着国际互联网络的日益普及,网上出现了以各种语 言为载体的大量信息,语言障碍问题在新的时代又一 次凸显出来,人们比以往任何时候都更迫切需要语言 的自动翻译系统。 但机器翻译是一个极为困难的研究课题,无论目前对 它的需求多么迫切,全自动高质量的机器翻译系统 (FAHQMT)仍将是人类一个遥远的梦。

机器翻译的基本方法
机器翻译的基本方法 ? 基于规则的机器翻译方法 ? 直接翻译法 ? 转换法 ? 中间语言法 ? 基于语料库的机器翻译方法 ? 基于统计的方法 ? 基于实例的方法 ? 混合式机器翻译方法
目前没有任何 一种方法能实现机 器翻译的完美理 想,但在方法论方 面的探索已经使得 人们对机器翻译问 题的认识更加深 刻,而且也确实带 动了不少不那么完 美但尚可使用的产 品问世。
20世纪90年代以前,机器翻译方法的主流一直是基于规则的方 法,不过,统计方法后来居上,目前似乎已成主流方法,从学术 研究的角度看,更是如此。(Google translate)

机器翻译的基本方法
20世纪90年代以前,机器翻译方法的主流一直是基于 规则的方法,因此基于规则的方法也称为传统的机器 翻译方法。 直接翻译法 ? 逐词进行翻译,又称逐词翻译法(word for word translation) ? 无需对源语言文本进行分析 ? 对翻译过程的认识过渡简化,忽视了不同语言之间 在词序、词汇、结构等方面的差异。 ? 翻译效果差,属于早期过时认识,现已无人采用 How are you ? 怎么 是 你 ? How old are you ? 怎么 老 是 你 ?

机器在线翻译与人工翻译的比较

现如今大家各个国家的人群交流的越来越多,以至于语言自然而然的要学习的更多,如果机器翻译也就是“一点翻译”与人工翻译摆在一起,大家都知道选择人工翻译,因为人工翻译准确性高并且是根据文章上下文进行翻译的,那机翻真的没有优点了么,错,机翻的优点有很多,比如单词准确性高,面对偏僻的词汇也是可以翻译的,翻译语句的时候虽然不是很精准,但是对于了解语言的我们来说也可以根据翻译进行大致的了解,话不多说,简单的来介绍一下如何在线翻译吧。 步骤一:我们要先在电脑上准备好需要进行翻译的文件,最好是将其添加至桌面上,或路径不复杂的文件框内,同时还需要借助电脑浏览器搜索一点翻译,进入相关的界面。 步骤二:通过搜索可以看到“一点翻译“在百度里面的页面,进入在线翻译的界面后,我们就可以在页面的中心位置通过上传文档按钮进入文档翻译的选项页面了。

步骤三:进入文档翻译的选项页面后,我们可以先对上传文档按钮上方的一些选项进行修改(也就是下图里面的选项)这样可以帮助我们更好的实现翻译。 步骤四:上面的选项修改好后,我们就可以开始将准备好的文件添加进来了,可通过点击上传文档按钮或者是拖拽的方式将文件添加进来。

步骤五:文件添加进来后,可再次去翻译的自定义选项是否修改好,若确定修改好后,就可以通过开始翻译按钮,对PDF文件进行翻译了。 步骤六:翻译的时间根据翻译的文件的大小来定制,耐心等待文件翻译结束后,我们可以通过预览按钮对翻译后的文件进行预览,也可以直接将翻译后的文件下载到电脑上进行保存。

在线翻译与人工翻译最大的优点是速度快,方便,准确性高,如果不是相对了解很透的语句的话建议在“一点翻译”内进行在线翻译,小编已经尝试过了,感觉蛮好的哦。

统计机器翻译

统计机器翻译 来自维基百科,免费的百科全书 统计机器翻译(SMT)是一种机器翻译的模型,译文在统计模式的基础上生成,而统计模式所需的参数来自于对双语文本语料库的分析。 机器翻译中基于统计的方法与基于规则的方法和基于实例的方法相对。 统计机器翻译的最初想法由Warren Weaver在1949年〔1〕提出,其中包括对Claude Shannon 的信息理论。 统计机器翻译在1991年时由IBM公司的托马斯?J?沃森研究中心的研究者们再次提出,并且对近些年来重新唤起人们对机器翻译的兴趣作出重大贡献。到2006年为止,它已经是研究最广泛的机器翻译模型。 优势 统计机器翻译相对于最常被人们谈论的传统模型的优势如下: ?更好地利用资源 o存在着大量可被机器读取的格式的自然语言。 o通常,统计机器翻译系统不是针对于任何具体的语言配对。 o基于规则的翻译系统需要对语言规则的手动开发,这样不仅成本很高,而且通常对其它语言不适用。 ?更多的自然语言翻译资料 统计机器翻译的想法来自于信息理论。本质上来说,文档的翻译在基于可能性的p(e | f),其中的本国语言(例如英语)字符“e”就是对外国语言(例如法语)中字符“f”的翻译。一般来说,这些可能性都是利用参数估算的技术实现。 将贝叶斯法则应用于p(e | f)这个外语字符译成母语字符的可能性,会得到这一可能性,其中的翻译模型p(f | e)表示母语字符是对外语字符的翻译的可能性,而语言模型p(e)表示那个母语字符出现的可能性。从算术上来说,发现最佳译文也就是选取出现概率最高的那个。 要严格执行这一过程就必须对母语中所有字符e *进行穷举搜索。有效搜索就是机器解码器要做的工作,利用外语字符、启发式的或其它方法来限制搜索范围,同时保证合意的译文质量。质量和所耗时间之间的这种交换在语音识别方面也可以看到。 翻译系统不能将所有的母语字符串和它们的译文都存储起来,所以只能对文档进行逐句翻译,但即使这样也还是不够的。语言模型是典型的可被稳定的n-gram模型模拟的,并且同样的方法已经应用于翻译模型,但是语言中不同的句子长度和词汇顺序造成了更多的复杂问题。 统计机器翻译模型最初是基于词汇的(来自IBM的模型1-5),但是在引入了基于短语的模型之后有了重大的发展。近期已经引入了句法或类似语法的结构。 基于词汇的的翻译 在基于词汇的翻译中,待译的元素是所有的词汇。实际上,由于复合的词汇、词法和习惯用

人工智能与机器翻译期末复习题

一、名词解释(5X3‘)15’ 1.兼类(P121):一个单词既可以作名词动词又可以作其他词类 2.机器翻译:用计算机软件代替人做的书面翻译 3.组合型歧义:一个字与前面的字成词,与后面的字成词,合起来也成词。 4.交集型歧义(P117):一个字与前面的字成词,与后面的字也成词。 5.人工智能:用计算机硬件、软件模拟人的行为,解决人类目前尚未认识清楚的问题。 6.人工智能软件的三大技术:知识表示、知识推理、知识获取。 7.语料库:单词、短语和句子组成的数据库。 8.知识工程:包括人工智能软件技术的工程。(知识工程是以知识为基础的系统,就是 通过智能软件而建立的专家系统) 9.深度学习:一步一步在丰富起来的特征规律引导下,由浅入深完成推理的方法。 10.语用分析:分析成语和习惯用语的方法。 二、题解P36 例2.1 、2.2 例2.1 设有下列语句: (1)高山比他父亲出名。 (2)刘水是计算机系的一名学生,但他不喜欢编程序。 (3)人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y):x比y出名 COMPUTER(x):x是计算机系的学生 LIKE(x,y):x喜欢y LOVE(x,y):x爱y M(x):x是人 定义函数father(x)表示从x到其父亲的映射此时可用谓词公式把上述三个语句表示为:(1)BIGGER(高山,father(x)) (2)COMPUTER(刘水)∧∽LIKE(刘水,程序) (3)(?x)(M(x) →LOVE(x,劳动)) 例2.2 设有下列语句: (1)自然数都是大于零的整数。 (2)所有整数不是偶数就是奇数。 (3)偶数除以2是整数。 定义谓词如下: N(x):x是自然数 I(x):x是整数 E(x):x是偶数 O(x):x是奇数 GZ(x):x大于零 另外,用函数S(x)表示x除以2。此时,上述三个句子可用谓词公式表示为: (?x)(N(x) →GZ(x)∧I(x)) (?x)(I(x) →E(x)∨O(x)) (?x)(E(x) →I(S(x))) 三、论述(4X5‘)20’ 1.阐述深度、广度、代价驱动搜索方法。(P68) 答:广度优先搜索法:对全部节点沿广度进行横向扫描,按各节点生成的先后次序,

机器翻译

机器翻译 1 概述 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。 2 国内外现状 机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。 真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

机器翻译和人工翻译-大学英语作文

学术英语作文 机器翻译是否会代替人工翻译 In the past decades, artificial intelligence has brought the light of reform to many areas, translation industry included. The new reform brought us machine translation. As an increasing popular topic, it has inspired people to think that maybe one day, they no longer need to learn foreign languages because machine translation will replace human translation. Though it is not 100% correct, there remains some reasonality within. Last year, A research team from Microsoft claimed that their machine translation (MT) system has achieved the level of professional human translators when it comes to general news report. Meanwhile, Google Translate tool has surpassed the proficiency of some advanced learners. And on Baidu World Conference, Yanhong Li showcased a real-time translation developed by his company. A trend revealed by all those tech giants’ news——an accurate and real-time translation by machine is promising in the future. Meanwhile, new techniques emerge constantly, accelerating the smartness and depth of machine learning. Taking neural network for example……(待补充70词) Thus, In the coming future, there’s no need for comm on people to learn foreign languages. Once the translation machines are smart and powerful enough to deal with academic environment and daily life while also portable to be carried with, people will use them to travel, study and live all around the world without language barriers. It will just look like the scenery in the movie The Wondering Earth -- Astronauts from various countries talk in their mother tongue. At the same time, a mini equipment installed in their suits translate their words. However, if you

机器翻译研究现状与展望1 Machine TranslationPast,Present,future

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

人工智能与机器翻译.

人工智能与机器翻译(A,B 卷 七个大题:1. 名词解释 2.题解 3.智能知识 4.机器翻译方法 5. 技术阐述 6.分析题 7.应用题 A. 名词解释 : a. 机器翻译 :计算机程序做人的翻译。 b. 兼类 :一个单词既可以作名词动词又可以作其它词类。 c. 人工智能软件技术 :知识表示,知识推理,知识学习。 d. 人工智能 :用计算机模拟人的行为。 e. 交集型歧义 :一个字和前面的字可以成词,跟后面的字也可以成词。 f. 组合型歧义 :一个字可以和前面的字成词也可以同后面的字成词,连起来也可以成词。 g. 语法分析 :分析一句话的语法含义。 h. 语料库 :单词,短语,句子的集合。 i. 自然语言理解 :用计算机程序去理解一篇文章的含义。 B. 题解 : 第二章 P36 2-1,2-2 例 2.1 设有下列语句: (1 高山比他父亲出名。 (2 刘水是计算机系的一名学生,但他不喜欢编程序。

(3 人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y:x比 y 出名 COMPUTER(x:x是计算机系的学生 LIKE(x,y:x喜欢 y LOVE(x,y:x爱 y M(x:x是人 定义函数 father(x表示从 x 到其父亲的映射此时可用谓词公式把上述三个语句表示为: (1 BIGGER(高山, father(x (2 COMPUTER(刘水∧∽ LIKE (刘水,程序 (3 (任意 x (M(x->LOVE(x,劳动 例 2.2 设有下列语句: (1 自然数都是大于零的整数。 (2 所有整数不是偶数就是奇数。 (3 偶数除以 2是整数。 定义谓词如下: N(x:x是自然数 I(x:x是整数

机器翻译的特点及其与人工翻译的关系.doc

机器翻译的特点及其与人工翻译的关系 2020年4月

机器翻译的特点及其与人工翻译的关系本文关键词:机器翻译,翻译,关系 机器翻译的特点及其与人工翻译的关系本文简介:摘要:本文从机器翻译的发展出发,客观分析了机器翻译与人工翻译的优缺点,以此探讨应该用辩证和发展的眼光来看待机器翻译,学会利用科技来提高自身工作的效率与价值。关键词:机器翻译;人工翻译;人工智能;一、引言随着大数据、云计算和人工智能的发展,许多技术革新纷纷出现,人们的生活也随之变得更加 机器翻译的特点及其与人工翻译的关系本文内容: 摘要:本文从机器翻译的发展出发,客观分析了机器翻译与人工翻译的优缺点,以此探讨应该用辩证和发展的眼光来看待机器翻译,学会利用科技来提高自身工作的效率与价值。 关键词:机器翻译; 人工翻译; 人工智能; 一、引言

随着大数据、云计算和人工智能的发展,许多技术革新纷纷出现,人们的生活也随之变得更加便捷。机器翻译便是备受瞩目的技术之一。它指的是能够将口头或书面文字从一种语言翻译成另一种语言的自动化技术,全程无需人工参与。随着互联网为人们开辟了更广泛的多语言世界,这种语言服务变得非常宝贵。 二、机器翻译的发展 在过去几年中,机器翻译的研究和开发速度惊人。早在2016年,谷歌推出了神经机器翻译系统,同时使用基于短语的机器翻译作为其服务背后的关键算法,以弥合人机翻译之间的差距。后来,微软通过WMT2017Newstest证明其机器翻译系统已经可以产出与人工翻译几乎无法区分的译文。在中国,网易、搜狗和科大讯飞等互联网巨头也加入了竞争,积极发布人工智能翻译设备,以卸下人工翻译的沉重负担。 然而,机器翻译的发展并非一帆风顺。近日,腾讯的同声传译和转录机在博鳌论坛上译出了重复的短语和破碎的句子,引起了全世界对于AI翻译是否能够取代人工翻译的广泛关注和激烈辩论。在谈到人工智能是否能取代人类的问题时,我们应该记住,几乎所有技术都有其优点和缺点,机器

基于实例的机器翻译

基于实例的机器翻译 ——方法和问题 王厚峰(北京大学) 关键字:基于实例的机器翻译,双语对齐,相似度计算,模板获取 摘要:本文介绍了基于实例的机器翻译方法,并对基于实例的机器翻译的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。 Method and Issues of Example-Based Machine Translation Wang Houfeng Keywords: EBMT, Bilingual Alignment, Similarity Measure, Template Acquisition. Abstract: The basic frame of Example based machine translation is concerned in this paper. Some key issues, such as bilingual alignment, similarity measure between input sentence and example, and template acquisition, are introduced. 引言 早期的机器翻译本质上都是基于语言规则或语言知识RBMT(Rule Based Machine Translation)的。如,词法规则,句法分析规则,转换规则,目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。直译法、转换生成方法、中间语言方法等都可以归为这一类。在上一世纪80年代中后期,这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译CBMT( Corpus-Based Machine Translation) 方法打破。 语料库方法中最有影响的是IBM公司的P.Brown 提出的基于统计的机器翻译SBMT (Statistics Based Machine Translation)。受语音处理的启发,P.Brown在1988年第二届TMI会议上提出了用隐马尔科夫模型HMM(Hidden Markov Model)进行机器翻译的想法,这一想法震惊了当时的与会者,并直接导致了语料库方法在自然语言处理上的迅速发展。 另一个影响更为广泛的机器翻译方法是日本的长尾真(Makoto Nagao)1981年提出的基于实例的机器翻译EBMT ( Example based Machine Translation),并于1984年发表[6]。基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子),再对实例的译文通过串替换,串删除以及串增加等一系列变形操作,实现翻译。 基于实例的翻译方法受到广泛关注是在进入90年代之后。其中,Sato[7,8]等人起到了很好的推动作用。 EBMT的基本思想 长尾真认为,人们在翻译简单句子时并没有做语言的深层分析,而是先将句子分解为几个片断(短语),然后,借助于已有片断的翻译,将分解的每个片断翻译成目标短语,最后在将这些短语组合起来形成一个长的句子。 基于上述思想,长尾真提出了基于实例的机器翻译EBMT的思想。对应地,EBMT也分为三大部分:将实例划分为片断,确定各个片断的翻译以及重组片断。 例2.1. (a) 她买了一本计算语言学入门书 假定计算机内已经存储了如下的实例对:

对机器翻译取代人工翻译的反驳

对机器翻译取代人工翻译的反驳 近日,一篇名为《翻译界的重大突破!作为一个翻译,此刻我理解了18世纪纺织工人看到蒸汽机时的忧虑和恐惧!》传遍朋友圈,不少译员和外语系学生表现出了对于翻译前景的担忧,大有机器翻译取代人工翻译的意思。 这篇的文章标题的确相当耸人听闻,这是在号召丢饭碗的译员去砸谷歌总部么?毕竟翻译作为一种创造性的脑力劳动,跟纯粹地出卖体力还是不一样的(没有任何贬低体力劳动的意思)。相反,个人觉得,作为译员或者外语系学生,应当对于新技术的到来表示欢迎,并主动适应新趋势,而不应该盲目表现出不必要的担忧。 当前笔译市场鱼龙混杂,不少人觉得拿个专八证书就可以做翻译,甚至报价五六十每千字都愿意做,已经严重扰乱了翻译市场秩序。个人觉得CATTI二级作为敲门砖还是能起到筛选作用的,毕竟15%左右的通过率摆在那里。机器翻译的发展对于淘汰低端译员可以起到积极作用,而机器翻译完全取代人工翻译的说法实在有夸大之嫌。 奠定了翻译学(Translation Studies)独立学科地位的詹姆斯·霍姆斯James Holmes,曾经提出过翻译学的“Map”,确定学科研究的范围,首先从大方向上分为“纯理论”(Pure)和“应用”(Applied)两个部分,而“应用”层面又可以再分为三个分支“译员培训”(Translator Training)、“翻译辅助”(Translation Aids)、“翻译批评”(Translation Criticism),显然“机器翻译”(Machine Translation,MT)和“计算机辅助翻译”(Computer Aided Translation,CAT)可以归在“翻译辅助”下面。1本人曾经用过大名鼎鼎的CAT 软件Trados(塔多思),功能十分强大,可以随时将翻译结果记录进术语库(MultiTerm)中,在该术语重复出现或者近似表达出现的时候进行提示,从而确保术语翻译在全文中的一致性,同时减少翻译术语的重复劳动时间。而诸如“谷歌翻译”之类的“机器翻译”,也代表着翻译研究的一个前沿领域——译后编辑(Post-editing),即通过人工对机器翻译产生的译文进行修改和润色,使其达到可以使用的水平。综上,“翻译辅助”可以减少译员大量重复无意义的劳动,大大提高翻译效率,应该来说可以算是译员的福音。这也是为什么现在很多翻译公司招聘译员都需要熟练掌握翻译辅助工具的原因,当然这也代表着翻译行业的新趋势,对翻译辅助软件一窍不通必然会面临被淘汰的危险。 以下论述机器翻译不可能完全取代人工翻译的原因。第一,翻译辅助软件大多运用于具有大量术语的科技翻译等非文学题材,而对于文学翻译可以起到的作用相当有限。第二,机器翻译基于庞大的语料库,很难处理暂时没有固定翻译的术语,比如中国的外宣翻译是由专家集体讨论之后权威发布的。第三,从根本上讲,机器翻译是基于“对等”(equivalence),或者类似于平行语料库(parallel

从文学文本角度看机器翻译与人工翻译的差异

从文学文本角度看机器翻译与人工翻译的差异 ○吴建兰,朱杭慧,黄煜婷 (南京信息工程大学,江苏南京210044) [摘要]翻译事业迅速成长,日益受到重视。面对法律、科技等众多文本,人们可 以结合利用机器翻译和人工翻译,但面对文学类文本,机器翻译稍显不足。本文列举出多 例机器翻译和人工翻译的英译汉、汉译英译文,探讨两种翻译方法对原文的语言风格、情 感表达、文化内涵、句式结构等各方面的处理,了解机器翻译和人工翻译各自优越性和局 限性所在,从而寻求机器翻译和人工翻译的未来优化发展方向,为提供译者和读者更好 的服务。 [关键词]机器翻译;人工翻译;文学文本;文化内涵 [基金项目]本项目由“南京信息工程大学大学生实践创新训练计划项目(SPITP)”资助(项目编号: 201710300268)。 [作者简介]吴建兰,南京信息工程大学文学院副教授。 朱杭慧,南京信息工程大学文学院翻译专业学生。 黄煜婷,南京信息工程大学文学院翻译专业学生。随着互联网迅速发展和国际社会交流日渐频繁,人们对翻译的研究日益深入,翻译行业发生重大改变。现在是信息爆炸的时代,面对众多纷繁的信息,纯人工翻译几乎不再存在,为了提高速度,促进科技发展,人们更加倚重机器翻译。然而,无论是机器翻译还是人工翻译都存在许多不足,需要人们深入研究。机器翻译和人工翻译,绝不是非此即彼,更应该是互相促进的关系。众所周知,机器翻译在对文学类文本的处理上有较大不足,但是,这更能促使人们思考如何让机器翻译在翻译文学文本中更上一层楼,同时也促进人工翻译的发展。一、机器翻译和人工翻译的比较机器翻译指利用计算机将源语言转换为目标语言,从而进行经济、政治、文化等各方面交流。学术界一般将机器翻译的发展历程分为四个阶段:开创期(1947~1964)、受挫期(1964~1975)、恢复期(1975~1989)和新时期(1990~至今)。机器翻译与计算机技术、语言学和信息论联系紧密,属于计算语言学的一个分支。机器翻译从早期的词典匹配,发展为词典结合语言学专家知识的规则进行翻译,再到基于语料库的统计机器翻译。机译系统可以分为基于规则和基于语料库两大类。前者按研究重点区分,可划分为词汇型、语法型、语义型、知识型和智能型。后者可细分为基于统计和基于实例。得利于其便利快捷、基本准确的 特性,机器翻译具有重要的实用价值和 科学研究价值,前景不可估量。直到今 天,还有无数机器翻译软件竞相入市。人工翻译即以人工的方式将语言进 杏苑论坛Xing yuan lun tan 品位·经典101

人工智能与机器翻译复习总结

一.名词解释(3X5) 1.机器翻译:机器翻译是人工智能研究的一个分支, 是用电脑代替人做翻译 工作。 2.组合型歧义:一个句子中,一个字既可以与前面的字构成一个词,也可 以与后面的字构成一个词,也可以合起来组成一个词。(词与词之间的串联产 生的) 3.交集型歧义:一个句子中,一个字既可以与前面的字构成一个词,也可 以与后面的字构成一个词。(词与词之间的交叉组合产生的) 4.语料库:由单词、短语、句子组成的电子库。 5.人工智能:人工智能是计算机科学的一个分支,任务旨在 模拟人类行为和认知过程。 6.人工智能软件技术:知识表示、知识推理、知识获取。 7.语法分析:分析一个句子有无语法错误。例如“兔子吃草” 是正确的,但“草吃兔子”是错误的。 8.兼类:兼类指同一个词具有不同的词类语法功能, 即这个词兼属不同的词 类。 二.基本概念(3x4) 1.人工智能应用领域:P11 (1)问题求解 (2)逻辑推理与定理证明 (3)自然语言理解 (4)自动程序设计 (5)专家系统 (6)机器学习 (7)人工神经网络

(8)机器人学 (9)模式识别 (10)机器视觉 (11)智能控制 (12)智能检索 (13)智能调度与指挥 (14)系统与语言工具 2.分析智能软件与通常软件的区别:P8 通用软件:采用两级层次加以组织:数据级、控制级 智能软件:采用三级层次加以组织:数据级、知识库、控制级 3.比较智能软件与通常软件的性质:P8 通用软件:(1)通用性。算法应能求解问题范围内的全部问题,而不是只能解决其中的某些特殊问题。 (2)确定性。算法中的问题求解状态、求解步骤应该是精确的、唯一的,并可以机械的执行。 (3)有效性。问题范围内的任何具体问题带入算法后,都可以经过有限步骤达到所期望的结果。 智能软件:(1)局部性。仅适用与求解一类问题中那些被认为合理或者常见的问题。 (2)试探性。常采用一般情况下能保证正常工作的方法进行问题求解,当这个方法失败时,允许采用其他方法。 (3)针对性。智能软件常利用求解问题的一些特殊规律,但这些规

西南民大-人工智能与机器翻译期末试卷完整版

一、名词解释: 1.多义词:一个单词有两个及以上意义。 2.语料库:单词、短语和句子组成的数据库。 3.组合型歧义:一个字与前面的字成词,与后面的字成词,合起来也成词。 4.交集型歧义:一个字与前面的字成词,与后面的字也成词。 5.人工智能:用计算机模拟人的行为。 6.人工智能软件(三大)技术:知识表示、知识推理、知识获取。 7.机器翻译:用计算机软件代替人做的书面翻译。 8.自然语言理解:一篇文章用计算机程序来理解,评价标准是计算机程序写出来的正确摘要。 9.机器学习:用计算机软件、硬件,人工半自动、自动学习知识。 10.语义分析:就是对句子意义的分析。 11.兼类:一个单词既可以作名词动词又可以作其它词类。 12.语法分析:分析一句话的语法含义。 二、题解 例2.1 设有下列语句: (1)高山比他父亲出名。 (2)刘水是计算机系的一名学生,但他不喜欢编程序。 (3)人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y):x比y出名 COMPUTER(x):x是计算机系的学生 LIKE(x,y):x喜欢y LOVE(x,y):x爱y M(x):x是人 定义函数father(x)表示从x到其父亲的映射此时可用谓词公式把上述三个语句表示为:(1)BIGGER(高山,father(x)) (2)COMPUTER(刘水)∧∽LIKE(刘水,程序) (3)(?x)(M(x) → LOVE(x,劳动)) 例2.2 设有下列语句: (1)自然数都是大于零的整数。 (2)所有整数不是偶数就是奇数。 (3)偶数除以2是整数。 定义谓词如下: N(x):x是自然数 I(x):x是整数 E(x):x是偶数 O(x):x是奇数 GZ(x):x大于零 另外,用函数S(x)表示x除以2。此时,上述三个句子可用谓词公式表示为: (?x)(N(x) →GZ(x)∧I(x)) (?x)(I(x) →E(x)∨O(x)) (?x)(E(x) →I(S(x)))

统计机器翻译

统计机器翻译 熊德意,何中军,刘群 1.概述 统计机器翻译,又称为数据驱动(data-driven)的机器翻译。其思想其实并不新鲜。早在1949年,Weaver发表的以《翻译》为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。上世纪90年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。 基 于 句 法 的 方 法 源语言目标语言 图1统计机器翻译金字塔 但是,进入21世纪以来,在学习、生活和工作中,人们日益发现,不同语言之间的交流越来越频繁。无论是口语还是书面形式的交流,无不对机器翻译提出了更加严峻迫切的要求。而另一方面,计算能力也获得了突飞猛进,互联网的发展和普及,以及双语国家、联合国的多语存档,为我们提供了数以千万句的双语平行语料,这些为统计机器翻译方法奠定了

必要的基础。于是,越来越多的研究人员开始投入到统计机器翻译的研究中,并取得了成功(在美国国家标准和技术研究所(NIST)信息部语音组主持的机器翻译国际评测1中,从2002年到2005年,统计机器翻译连续四年取得好成绩[1]),统计方法也逐渐成为国际上机器翻译研究的主流方法之一。 目前统计机器翻译方法主要分为三类:第一类是基于词的(word-based ),以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识;第二类是基于短语的(phrase-based),它将翻译的粒度从单词扩展到短语,能够较好的解决局部上下文依赖问题,提高了翻译的流利度和准确率;第三类是基于句法的(syntax-based ),将句法结构信息引入翻译过程,这种方法是当前研究的一个热点。这三类方法可以用图1的金字塔来描述。 本文的内容也按照上面提到的3种主要方法组织,对每种方法进行简单介绍,由于篇幅所限,我们不可能对每一部分深入开展,但是我们希望通过丰富的实例和图解,能让读者对统计机器翻译有一个大概的印象,如果能够引起兴趣,那本文的目的就真正达到了。在第二节中我们对基于单词的方法简单介绍,这可以说是统计机器翻译真正意义上的开端引领工作。第三节介绍目前主流的统计机器翻译方法:基于短语的方法。第四节介绍基于句法的方法,这是当前统计机器翻译研究的热点。 2. 基于单词的方法 基于词的统计机器翻译,顾名思义,其主要思想是以词作为翻译的基本单位。训练时,它从语料库中统计目标语言单词翻译为源语言单词的概率。翻译时,首先查找每个源语言单词所对应的目标语言单词,然后插入、删除目标语言单词,并调整它们的顺序,最后组合成目标语言句子。这种方法的典型代表就是上世纪90年代初期IBM 公司的Brown 等人提出的基于信源信道模型的方法5)[2]5)[3],可以说,它为现代统计机器翻译研究的蓬勃发展奠定了坚实的基础。 信源信道模型将统计机器翻译看成一个信息传输的过程:信道的输入是目标语言e ,在经过信道编码以后,输出源语言f ,机器翻译的任务就是将源语言f 还原(翻译)为目标语言e ,这一过程通常称之为解码。需要注意的是,这种模型与人们通常的认识有所区别,就模型而言,信道的输入是目标语言,而输出则是源语言,实际上在翻译(解码)时,还是将源语言作为输入,输出为目标语言。 图2 信源信道模型示例 根据Bayes 公式,Brown 等人提出了统计机器翻译的基本方程式: ?arg max Pr()Pr(|)e e e f e 其中,Pr()e 是目标语言的语言模型,衡量生成的目标语言的合法程度;Pr(|)f e 是翻译模型,衡量目标语言文本翻译为源语言文本的概率。解码的任务就是根据上式找到概率最大的译文。在此基础上,IBM 公司的研究人员提出了5个复杂程度层层递进的翻译模型,使用EM 算法从句子对齐的语料库中自动学习单词的翻译概率,然后利用动态规划算法进行解码5)[3]。 1 https://www.doczj.com/doc/9e11845153.html,/speech/tests/mt/

相关主题
文本预览
相关文档 最新文档