当前位置:首页 > 作文大全 > [语音识别 理想与现实的距离] 理想与现实800字议论文
 

[语音识别 理想与现实的距离] 理想与现实800字议论文

发布时间:2019-02-28 04:26:42 影响了:

  让机器能够听懂人类的语言,一直以来都是人类梦寐以求的愿望。在今天,语音识别到底离我们有多远?   很小的时候爱看科幻小说,在那样的小说中,曾经看到过科幻小说家预言未来的人会长成什么样子。按照达尔文的进化理论,未来的人脑袋将会变得极其之大,而四肢则渐渐退化。因为人类通过聪明的大脑,逐步让四肢从繁琐的工作中解放出来,最终就会变成脑袋庞大而四肢退化的模样。而语音识别(Speech Recognition)就是在这种科幻进程中解放我们双手的一项重要技术。
  让机器直接能够听懂人类的语言,一直以来都是人类梦寐以求的愿望。可是语音识别技术虽行之有年, 但进展却似乎缓慢。当记者走进中科院声学所的中科信利语音实验室,才切身体会到,其实语音识别离我们并不遥远。
  
  哼唱识别系统
  
  不久前,中科院声学所的中科信利语音实验室开发出了一种“哼唱检索系统”,无需鼠标键盘,对着话筒哼唱出歌曲的旋律就可以检索到哼唱歌曲的曲名。当记者在中科信利语音实验室的会议室,面对屏幕,拿着话筒哼起一段邓丽君的《甜蜜蜜》的旋律时,大概只用了6~10秒,检索系统就自动检索出来了所哼唱旋律的歌名,并附上了完整的歌词。
  “哼唱检索系统是通过旋律匹配进行检索的。”博士毕业论文专门研究哼唱检索系统的语音助理研究员李明介绍说。哼唱检索系统根据歌曲旋律的走势来匹配检索,而不是通过音调。因为音调的基准会有所不同,这就大大降低了检索识别的适用性。所以,对于哼唱检索系统的使用者而言,哼唱节奏的快慢,以及记得歌词与否,都对检索识别没有影响。正是因为此,这套系统在由美国伊利诺斯大学负责主办的国际音乐信息检索评测比赛(MIREX)中,以92%的准确度获得了第一名的好成绩。
  任何系统都不能只存在于实验室中,哼唱检索系统业理所当然要走出实验室。“我们的哼唱检索系统已经在河北等地的移动彩铃业务中应用了。”中科信利语音实验室研究室主任颜永红说。“用户通过哼唱一段旋律,就能查找到自己听过却不知道名称的歌曲或彩铃,然后进行点播和下载。这种大规模的商业应用,已经进入了成熟阶段。”颜永红还表示,实验室正在着手和互联网几大音乐内容提供商合作,相信在不久的将来,就可以实现在互联网上哼唱一段旋律来检索歌曲名称。
  
  提高识别率
  
  对于中科信利语音实验室研究出来的这套哼唱识别系统,还有一个更好的应用前景就是在KTV等场所的歌曲检索。对于爱好唱歌的人而言,一定都有过这样的经历: 往往熟悉一首歌曲的旋律,却记不住歌曲的名称。特别是在KTV点唱时,K友常常会遇到这样的问题,想唱却又找不到歌名。哼唱检索系统正好解决了这样的问题。试想,当有一天,我们在KTV中点歌时,不必再通过繁琐的手动操作界面,而只需要通过口头来完成,那种感觉又岂是方便两个字能简单概括的。而这种搜索模式的实现,其实只要在KTV的点歌系统中嵌入哼唱检索系统的技术就可以了。
  但是,中科信利语音实验室开发出来的哼唱检索系统对哼唱的环境是有所要求的。“我们的检索环境要求是要相对安静的。”李明这样介绍说。那么,对于KTV中过于嘈杂的语音环境,哼唱检索系统,如何发挥他的威力呢?
  “目前语音识别技术需要解决的问题,一个是对噪音环境的处理,一个是对不同口音的识别,再一个就是要不断提出好的算法。”颜永红这样对记者说到。语音识别技术的基本原理就是对输入的语音信号进行分析,抽取语音特征参数与存储器中的语音模板的参数进行匹配识别。因此,语音识别技术不仅对识别的背景、噪声干扰有要求,同时,对说话者的清晰程度、连贯程度,以及是否口语化是否带口音,也都有要求。这些正是导致语音识别技术识别率不高的主要原因,也是导致语音识别技术一直没有能够大规模展开应用的瓶颈。
  如何提高识别率一直都是语音识别技术不断挑战的问题。基于目前的语音识别技术,语音识别的应用,应该是相对小众的,而且面对特殊人群的。例如,某一领域,相对安静背景的语音识别的应用,又或,就目前而言,语音识别技术对于盲人群体的作用与帮助要大大高于一般的正常人。
  
  语音识别搜索
  
  语音识别技术一个很有效的应用,就是语音识别搜索。“语音识别搜索主要有三种方式: 原声搜索、旋律匹配搜索和语音搜索。”中科信利语音实验室副研究员赵庆卫博士告诉记者。原声搜索是针对原始声音进行完整匹配的搜索。除人声外,其他周遭的一切声音都可以针对原声搜索出其位置。而哼唱检索系统就是典型的旋律匹配搜索。至于语音搜索,是指针对某一特定人员的语音进行筛选搜索的方式。
  在信息疯狂膨胀的时代,对于浩瀚信息中的有效资源搜索毫无疑问是相当重要的。而且,信息已经不单纯是以往的纯文本,而是逐步发展到了音频、视频领域。以往单纯通过音频、视频文件的文本标签来搜索音、视频文件已经不足以满足用户的需求。通过语音识别对音、视频内容的搜索已经开始广泛应用。
  美国的Blinkx就是最先开始应用语音识别进行内容搜索的网站之一。而在国内,openv.tv也露出了做专业的电视及视频搜索引擎的意图。当文字搜索已经发展到几乎没有上升空间的时候,微软、Google这些技术巨头也开始瞄准未来的语音、视频搜索市场。
  未来无限大
  语音识别芯片的应用范围其实十分广阔: 电话通信中的语音拨号、汽车的语音控制、工业控制及医疗领域的人机语音交互界面、个人数字助理(Personal Digital Assistant,PDA)的语音交互界面、语音智能玩具、家电的语音遥控等。解放双手,丰富沟通,是在这些领域应用的共性。
  除此之外,语音识别还可以给我们带来更多的便利。“语音识别的关键一个是发音评估,一个是内容识别。”赵庆卫说。除了哼唱检索系统以外,中科信利语音实验室在音频水印、发音纠正、语种识别等方面都有成果。音频水印是以编码方式嵌入音、视频文件,主要应用于音、视频文件的版权保护、保密通信以及广播监听。发音纠正软件可以对说话人的发音进行评估和分析,特别有助与用户的语言学习。据赵庆卫介绍,这种发音纠正已经用于国内部分地区推广普通话的进程中了。
  “市场每年;都在变大。”谈及语音识别市场的未来时,颜永红如是说。根据半导体行业的摩尔定律,硬件成本过高是导致语音识别技术无法在家电等领域应用的主要原因。“早在2002年,技术上就已经实现在电话上应用语音识别技术了,但是却只能用在部分高端手机上。”颜永红说。
  中科信利语音实验室目前一直在和致力于芯片技术的厂商合作,从而有效地解决了语音处理过程中遇到的噪声等问题,提高了声学语音传达的准确性,与语音识别软件技术形成优势互补。
  “希望10年到20年的时间内,语音识别技术会有长足的发展。”颜永红充满期盼地说道。也许过不了多久,面貌焕然一新、同时蕴藏巨大商机的语音识别应用热潮,将会彻底改变人们的思维定势,其实理想和现实的距离并不如我们想象的那么遥远。
  

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3