当前位置:首页 > 演讲稿 > 机器翻译的自动评测技术|机器翻译是什么技术
 

机器翻译的自动评测技术|机器翻译是什么技术

发布时间:2019-03-12 04:10:22 影响了:

  本文介绍了机器翻译评测的基本原理以及常用评测标准,包括人工评测方法、基于n元匹配的BLEU和NIST自动评测方法。   机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价,我们称其为机器翻译评测。由于机器翻译所处理的对象――语言本身存在某种程度的歧义,无法像数学公式或者物理模型那样简单客观地描述出来,这使得为机器翻译结果进行客观的打分变得非常困难。最早的方法是人工评测,这种方法得到的结果一般是十分准确的,但评测的成本太高,周期过长(评测过程可能长达几周甚至数月),评价结果也会随着评价人的变化和时间的推移而不同,这使得评价结果不可重复,缺乏客观性,因此,机器翻译的自动评测应运而生。实践证明,机器翻译的评测尤其是自动评测对机器翻译研究的影响十分巨大,对研究发展和技术进步起着非常重要的引导作用。
  
  基于n元匹配的自动评测方法
  
  如果一个机器翻译评测系统只根据源语言文本就能自动地为若干译文打分并选择出其中最好的结果,那么这个评测系统本身就是一个质量更好的机器翻译系统了。因此,自动评测最初的出发点就是给出一些标准的翻译结果,然后比较机器生成的译文与这些翻译之间的相似程度。我们称这些标准的翻译为参考译文(或者参考答案)。同一个句子可以有多个不同的参考译文,这些参考译文都表达同一个含义,但可能使用了不同的词汇,或者虽然使用了相同的词汇但在句中的词序不同。这样一来,机器翻译自动评测的问题转换为比较机器翻译系统输出的一个翻译结果和多个通过人工产生的正确的参考译文之间的相似度的问题,使用不同的相似度计算方法即可得到不同的自动评测方法。
  例如,考虑如下两个机器翻译系统生成的翻译结果:
  
  源语言文本: 今年前两月广东高新技术产品出口37.6亿美元
  
  系统译文1: The new high-tech products in Guangdong exported 3.76 billion dollars in the first two months this year
  系统译文2: This year,the former two of Guangdong,the export of hi-tech products 37.6 yi US dollars
  从直观上看,上面两个翻译结果的质量有较大的差别,第一个翻译结果明显通顺、流畅、易于理解,如何将这种人的直观印象与具体的客观分数统一起来?这里引入三个人工翻译的参考译文来进行比较:
  参考译文1: Guangdong’s export of new high technology products amounts to US$3.76 billion in first two months of this year
  参考译文2: Guangdong’s Exports US$3.76 Billion Worth of High Technology Products in the First Two Months of This year
  参考译文3: In the first 2 months this year,the export volume of new high-tech products in Guangdong Province reached 3.76 billion US dollars
  可以看出,质量较好的系统译文1与三个参考译文共现了很多个翻译片段: 与参考译文1共现“3.76 billion”,与参考译文3共现“dollars”,与参考译文2共现“in the first two months”和“this year”。相比而言,系统译文2与上述三个参考译文的共现片段比较少。
  通过上述比较,可以很容易地写出一个评价算法来评价上述翻译结果的质量。通过引入一个称为n元匹配的概念,可对翻译结果1给出比翻译结果2更高的分数。n元匹配的含义是: 翻译结果与参考译文句子中的任意连续n个单词完全相同,这里的n值可以取任意正整数。基于n元匹配的策略非常与常用的准确度的计算思想类似,首先统计系统译文与参考译文中共现的n元匹配的个数,再除以相应的系统译文中n元词的总数,用这个比值来表示相应的n元准确率。
  机器翻译评测领域目前使用最为广泛的自动评测方法是BLEU( Bilingual Evaluation Understudy),就基于n元匹配的这一类方法中的典型代表,由IBM于2002年提出。类似的方法还包括NIST方法,该方法由美国标准和技术研究所提出并命名,它在BLEU方法的基础上,综合考虑了每个n元词的权重,对于那些在参考译文中出现次数更少的词赋给更高的权重以体现其所包含的信息量。
  BLEU和NIST是最常用的两种机器翻译自动评测方法,但这一类评测方法并不是在真正地评价系统译文与原文的一致程度,而是根据若干个参考译文为系统译文打分而已。系统得分似乎与待翻译的原文没有关系,参考译文的数量多寡与质量好坏才是影响评测结果的关键因素。
  基于准确率和
  召回率的自动评测方法
  基于n元匹配的自动评测方法是一种基于准确率的方法,与参考译文越相似的系统译文可获得越高的分数。研究人员提出了一些同时考虑召回率的自动评测方法,其中比较典型的是纽约大学提出的GTM评测方法。该方法应用了图的最大匹配算法来计算词的共现次数。
  图1描述了这个计算过程。图1中的黑点表示参考译文和系统译文共现的词的位置。图中的B和C都存在两次以上的共现,这些点被认为是互相冲突的,在实际计算时应避免重复,只保留一个即可。使用图搜索算法找到最大匹配的区块,如图中灰色部分所示,并在此基础上计算最大匹配块长度MMS,准确率和召回率都通过MMS进行计算,在上例中分别为4.6/8和4.6/10。系统最终的得分使用准确率和召回率的调和平均值F值来表示。
  基于GTM的评测标准最大的优点在于,没有人为地设置匹配时的最高阶数值(即n元匹配中的n的最大值,BLEU方法一般只考虑到4元或者5元匹配),图的最大匹配算法会自动地寻找针对某个参考译文的最大匹配词数。据称这种基于F值的自动方法与人工评测的一致性可以比BLEU或者NIST更高。其缺点在于,计算MMS本身是一个“NP难”的问题,比较费时。
  引入语言知识的自动评测方法
  BLEU、NIST以及GTM方法都是基于字面的完全匹配,并没有理解系统译文和参考译文的含义,引入多个参考译文只能在一定程度上减轻这方面的缺陷。研究人员尝试使用基于更多语言学知识的评测方法来评价翻译质量的好坏。早在十几年前,北京大学计算语言学研究所的俞士汶教授就提出了一种基于测试点的机器翻译自动评价方法。这种方法并不直接评价译文句子,而是考虑系统译文在给定的测试点上的质量。其基本原理类似于在考试出题时设置考点,考生答题时答到相应的考点即可得分。基于测试点的评测方法是一种非常巧妙的方法。使用这种评测方法,通过对评测结果进行细致深入的分析,很容易知道系统在哪些语言问题上处理得不够好,有针对性地对系统进行改进即可进一步提高系统翻译的质量。
  近几年来研究人员又提出了一些融合了语义知识的机器翻译评测方法,由美国南加州大学信息科学研究所的Zhou Liang等人提出的ParaEval方法通过引入语义对BLEU方法进行改进,中科院计算所的刘洋等人在GTM自动评测方法的基础上,引入模糊匹配的策略。这些机器翻译自动评测方法试图利用更多的语言学知识,更好地评价机器翻译系统译文的质量,使其结果与人工评价更为接近。
  (本文作者刘洋为中科院计算技术研究所助理研究员,博士研究生)

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3