当前位置:首页 > 作文大全 > 词根词缀常用排序_词缀对英文拼写检查工具建议生成排序的影响
 

词根词缀常用排序_词缀对英文拼写检查工具建议生成排序的影响

发布时间:2019-06-28 04:04:59 影响了:

  摘要:词缀是英文词汇构词的重要组成,现实中拼写错误发生在词缀本身的几率也较小。在拼写检查纠错工具中,将词缀提取出来单独处理可以对建议生成和排序产生积极的影响。该文选取了9个常见的英文词缀和61个医学领域的词缀,分别针对公共领域文本和医学领域文本进行实验,实现了准确率1.3%和1%的提升。
  关键词:词缀;拼写检查;召回率;准确率
  中图分类号:TP18文献标识码:A文章编号:1009-3044(2012)17-4133-03
  The Effect of Affixes on the Suggestion Genaration and Ranking Modules of English Spell Checker
  ZHENG Hai-feng,ZHANG Ming-duo
  (Zhanjiang Normal University, Guangdong, Zhanjiang 524000,China)
  Abstract:Affixes is an important component of English words, and spelling mistakes occured in affixes is also rare in practice. Properly utilise affixes in the suggestion generation and ranking module will lead to better results. In experiments, 9 common affixes and 61 medical morphologies were selected for public domain and medical domain misspellings, accordingly, 1.3% and 1% higher precision were achieved. Key words: affix; spell checking; recall; precision
  词缀(affix)是英文词汇构成的重要组成部分,一般用以和词干(word stem)组合形成新的单词。词缀又可以分为前缀(prefix)和后缀(suffix),它们可以是通过衍生(derivational)而来的,如,“-ness”表示状态和性质,“pre-”表示在…之前,先于…;也可以是通过变形(inflectional)而来的,如,英语中的复数形态“-s/-es”,或时态形态“-ed”等。另外,在一些专业领域的词汇中,词缀也往往具有重要的作用和意义,如,表示恐龙(蜥蜴)的词缀“-saurus”,“Brontosaurus”雷龙;医学领域用来表示红色的词缀“erythr-”,“erythromy? cin”红霉素,等等。
  拼写检查与纠错工具能够自动侦测出目标文本中的错误拼写或错误使用单词,并给出合理拼写建议。其典型结构主要由错误检查,建议生成和建议排序模块组成[1]。一般来说,错误拼写的类型可以概括为拼写错误和正字错误两种,而这两种类型的拼写错误都可以和词缀相关[2]。该文将通过实际的实验结果,寻找英文词缀对单词拼写检查与纠错中建议生成和排序模块的影响。
  1实验设计
  1.1实验构想
  由于英文词缀的长度一般较短,数量集合不大,且在不同词汇中重复率高,我们可以假设拼写错误发生在词缀上的几率很小。
  在拼写建议生成模块中,编辑距离(edit distance)一直都是最基础也最广泛使用的算法。其中的距离指的是将字符串A转换成字符串B所需要的操作次数。字符数越多的字符串转化后的字符串集越大,“距离”操作也越多[3]。在生成建议之前,可以将目标字符串中可识别的词缀先提取出来,针对剩下的字符串进行操作,最后再将操作后的字符串集和词缀组合起来。这样可以大大的提高算法操作的效率,缩小建议集合。
  另外,在拼写建议排序模块中,我们认为具有相同词缀的拼写建议是正确建议的可能性很大。例如,以副词或形容词形式“-ly”结尾的错误拼写单词,正确形态为相同词性“-ly”的可能性非常高。1.2实验方法
  为了测试实验构想,我们选取了9个常见的英文词缀和61个医学领域的词缀(见表1和表2),加入到构建好的拼写检查与纠错工具中,分别对公共领域文本和医学领域文本进行实验。公共领域文本由513个湛江师范学院大学生英语作文中出现的错误拼写单词组成;医学领域文本则由5230个澳大利亚悉尼Concord医院的临床记录中的错误拼写单词组成。
  表1常见词缀
  表2医学领域词缀
  实验主要有3个参数:
  实验分成几个阶段:
  2实验结果和讨论
  通过五个阶段的实验,针对公共领域文本的实验结果如表3所示。实验从Base line的80.1%(P)/ 86.2%(R)开始,逐步添加词缀提取机(AE)和词缀排序(AR)到建议生成和建议排序模块中。
  表3公共领域文本实验结果
  由结果可以看出,在实验的第二个阶段加入AE后,召回率有所下降,准确率也有些微下降。这是因为AE的加入,减少了算法生成字符串的数量,缩小了建议集合,不可避免的影响了召回率,但也因此提高了算法的效率(由平均建议数可以看出)。在加入AR排序之后,准确率有了回升,在召回率略低于Base line的前提下,准确率反而有所提高,达到了80.2%。在这个基础上,我们放弃使用词缀提取机(AE),使得召回率和平均建议数恢复到Base line的水平,准确率有了明显的提升,达到80.4%。最后,我们担心过多词缀的采用会影响排序的效果,从而只选取了两个最常见的词缀“-ly”和“-ed”,准确率进一步提升到了81.4%。
  同样的,对于医疗领域文本的实验结果(表4),变化的趋势和公共领域类似,但是AE对召回率的影响幅度明显大于公共领域(84.7%到84.2%)。这是由于医疗领域词缀一般较长,在实际使用中,较难匹配,拼写出错的几率也较高。
  表4医学领域文本实验结果
  另外在实验结果中,还有一个隐藏的数据值得注意:召回率和准确率之间的差异。准确率提升的目标是尽可能的接近同组实验的召回率,可见,他们之间的差异越小,越能反映系统的效率(如表5所示)。在添加了AE,AR功能后,R和P之间的差异明显变小,最终分别降低至4.8%和4.4%,优化幅度达到了1.3%和1.0%。
  表5召回率R和准确率P的差异变化
  3小结
  通过上面的实验我们发现,词缀的合理使用可以确确实实的提高拼写检查纠错工具的效率和准确率。这是以往研究很少涉及的领域,可以进一步探讨词缀集合选用的合理性,并探索其在错误检查模块中的作用。
  参考文献:
  [1] Tolentino H D, Matters M D, Walop W, et al. A UMLS-based spell checker for natural language processing in vaccine safety [J]. Bmc Medical Informatics and Decision Making, 2007.
  [2] Aduriz I, Agirre E, Alegria I, et al. A morphological analysis based method for spelling correction[C]//Proceedings of the sixth conference on European chapter of the Association for Computational Linguistics, 1993. Utrecht, The Netherlands: Association for Computational Linguistics, 1993.
  [3] Damerau F J. A technique for computer detection and correction of spelling errors [J]. Communications of the ACM, 1964(7):171-176.

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3