当前位置:首页 > 工作计划 > 语音交互,王者归来:语音无极限5王者归来
 

语音交互,王者归来:语音无极限5王者归来

发布时间:2019-03-10 03:58:23 影响了:

  “商标侵权案”并没有影响到业界对于苹果iPad的热度。近日,有消息称苹果将在3月的第一周内发布iPad 3,其中将会添加Siri语音功能,并在原有的英语、法语、德语基础上,新增对日语的支持。
  另一方面,苹果的老对手谷歌也已经宣称正在开发类似Siri的语音控制技术――Majel,用来替代Android系统中现有的Voice Actions。
  毫无疑问,以去年10月Siri发布为时间界限,沉寂多年的语音交互技术正在重新回到业界的关注中心。
  语音“国战”来袭
  全球市场上,新一代语音交互技术的竞争已经在苹果的带动下全面打响。在今年年初的CES展上就可以看到,语音技术已成为各大巨头争相投入的重点,智能手机、PC、智能电视、汽车等产品均引入了语音服务功能。
  而在国内,从各大厂商争相推出智能语音服务来看,中文语音市场同样暗流涌动。“目前类似苹果Siri的产品还没推出中文版本。所以,谁能更快开发出支持中文识别的版本,谁就能占据中文语音市场的高地。”艾媒咨询集团董事长张毅认为。
  近日,优视科技推出的最新UC浏览器8.2 Android版,已经可以通过语音发出多种控制指令。优视董事长兼CEO俞永福表示:“手机天生就有眼睛(摄像头)、嘴巴(麦克风)、耳朵(听筒)、位置(GPS),围绕这些特性,手机与人的人机交互模式会发生更多革命性的变化。”
  记者在体验该产品时发现,在浏览页面过程中,只要口头说出“前进”、“后退”、“加入书签”即能实现相应操作;所有的语音识别都会被上传到云端进行智能语义解析,再回到终端执行,识别的成功率相当高。
  2月16日,天猫祭出了“新花招”,网友只要对着麦克风发出“喵”的声音,就有可能获得5元、1000元的现金红包。据天猫的工作人员介绍,“喵一声”的背后其实是“Flash声纹比对技术”,是一种“娱乐版”的语音识别技术――声音通过终端麦克风搜集上传,再通过云端提取声纹与标准值进行对比,最后反馈给终端用户。“使用起来非常简单方便,与以前那些需要手动操作的活动相比,这个形式就省事多了。”一位参加过活动的用户告诉记者。
  此外,腾讯、长虹、TCL、百度等国内厂商也纷纷推出了基于云端语音识别引擎的产品。
  “设想一下,如果所有的人机交互操作都可以通过语音完成,这将大大减少文本输入和功能之间的频繁切换。随着产品的更新换代,更多的应用程序会支持语音交互,最终有可能把终端变为智能机器人。”汉语语音技术企业科大讯飞公司董事长刘庆峰认为,随着消费者对语音技术认识的加深,这个行业正在迎来蓬勃发展的时间窗口。
  移动互联的契机
  其实,语音技术在IT界并不是一个新鲜的话题。
  早在2000年,比尔.盖茨就曾提出“未来10年是语音的时代”。而IBM、英特尔和摩托罗拉等巨头也在语音领域有过多年的技术投入。不过,由于缺乏成熟的应用产品,功能上仅依赖于识别终端上原有的语音指令,因此长期以来都不是消费市场上的重要概念;而在PC时代,人机交互方式被更为精确、快速的键盘与鼠标所控制,这同样导致了识别度低下的语音技术无法获得市场的青睐。
  现在,移动互联的兴起,加之相关技术的逐渐成熟,给语音这种交互方式带来了全新的契机。
  事实上,新一代语音交互技术的崛起,并不是因为在识别技术上实现了多大的突破,更关键的是将语音与智能终端以及云端后台进行了恰到好处的整合。“前端使用了语音识别以及语音合成技术;重点在后台,集成了网页搜索、知识计算、资料库、问答推荐等各种技术,弥补了过去语音技术单纯依赖前端命令的局限性。”手机行业资深人士海东分析道。
  此外,随着智能手机的大量普及、群体时间的不断碎片化,个人计算中心移动化的趋势已经开始出现。对于移动终端来说,传统的键盘与鼠标并不能很好地满足用户的输入需求;语音则能解放用户的双手,交互的方式更加直观简便,相对来说能够获得更好的体验。未来,随着交互技术的不断演进以及使用者对人机交互的兴趣逐渐浓厚,手机、电脑等电子产品也不再仅仅是一种工具,而是逐步转变为类似科幻电影中的机器人角色――“人类说话,机器理解”,交流协作的人机交流模式正在逐步实现。
  乔布斯生前谈到对Siri的展望时就曾说:“虚拟个人助理(VPA)代表着下一代互联网交互方式。它通过分析交互历史,得出个人偏好,来帮助人们解决具体的事务,并通过经验积累变得更好。”
  由此可见, 未来语音服务的准确度和服务质量将取决于和使用者的磨合程度――使用的时间越长,后台捕捉到的用户个性化偏好就越多,也就意味着“私人助理”的价值是和使用时间成正比的。
  不过,新一代语音交互技术在满足消费者新鲜感的同时,仍然存在着一些问题。首先,云端智能语音解析技术确实能够提升识别率,但由于多了“上传-解析-回馈”的步骤,因而对速度和网络流量的要求较高。尤其是在Wi-Fi和3G网络基础建设尚未成型的国内,这将会大幅削弱用户体验,影响到各种应用的实用性。
  另一方面,语音交互始终面临着隐私的问题。在公开场合使用智能手机时,多数人并不愿意将自己的操作步骤或者想做的事情公之于众,这时语音交互就无法很好地保护个人隐私。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3