• 1
  • 2
  • 3
  • 4
  • 5
阿里云应用开发 首 页  »  帮助中心  »  云服务器  »  阿里云应用开发
语音输入四强争霸
发布日期:2016-8-3 15:8:11

  随着智能手机的不断推广,越来越多的新输入技术正得到长足的发展,语音识别技术作为最重要的人机接口之一,在近年来发展迅速,相关应用也日趋广泛。评论认为,在不远的未来,智能语音接口将有可能促使各种穿戴设备进一步发展成为可携带的“服务提供者”与“生活伙伴”。在这样的趋势下,语音输入法市场发展迅猛,仅国内就有多家公司推出了具有中文语音输入功能的产品,其中讯飞、搜狗、百度、微信四家公司的语音产品具有自主研发的识别技术,在互联网业界产生的影响也较大,阿里云也在这方面有所研究。近期,针对上述几家公司所开发的语音输入产品,北京邮电大学、重庆邮电大学做出了评测报告,展开了一场“四强争霸赛”。两所大学的测评参与人员均有200人之多,每名测试者所使用的测评文本总数也达200条,并以细致的分类覆盖到语音输入的各种应用场景,让这场比拼无论从专业性或是客观程度上,都十分值得业界参考。

  1、识别率之战,后来者居上

  近十年来,对字、句的识别准确率一直都是语音输入技术研发的主攻方向。这并没有看上去那么简单,输入法不仅要适应不同个体迥异的声音特征,还要克服外界环境中背景噪音所带来的各种干扰。若准确率不足,使用者将被迫对同一输入信息进行重复识别,或切换键盘输入,大大影响语音输入应用的使用体验。有鉴于此,参与这次评测的两所大学对输入法准确率的评估设计可谓细致入微:测试人的性别、地域,不同的环境干扰,都被考虑在内。


  图1

  数据显示搜狗在语音输入的各种场景下表现稳定突出(数值越低越稳定)

  从测试的结果来看,4款被测的主流语音输入法在字识别率上均能够超过90%,而在整句准确率方面则仍有14~24%不等的误差。这其中,搜狗语音输入法在各项测评中的表现优异,各项测评中差错率均控制在14%~16%之间,比肩、甚至超过讯飞输入法,而百度、微信语音输入的性能较前者则还存在着一定的差距。值得一提的是,语音识别界早就形成的一大共识是:只有识别技术的整句准确率达到83%以上,产品才能够真正具备有实际价值的可用性。

  在四款被测产品中,讯飞以语音合成起家;微信依托腾讯研究院,语音技术研发其始于2011年;百度从2010年其就开始了语音识别研究;而搜狗2012年初才开始涉猎语音识别。所以,评测显示完成自主研发时间最短的搜狗,其产品性能却优于同类,不能不说是令人意外。

  2、“深度学习”或成点金手

  语音输入不仅需要支持自身产品,还要做到为其他垂直领域(如地图,搜索与购物等)提供服务输出,这就要求识别技术具有全面、稳定的性能,除了能高效地处理长句,还要准确地识别单词输入。从测评结果可看出,与在整句识别中的高光表现相对的是,讯飞输入在短词识别中性能明显下降。就全面性而言,搜狗则是本次测评中唯一兼具稳定性与高性能的产品。

  测评参与人员的分析认为,能取得这样的成绩,离不开搜狗语音输入所应用的“深度神经网络”(或者称“深度学习”)技术。这一技术最先由微软引入语音识别领域,是最为前沿的识别技术之一。微软技术报告显示,深度神经网络能够在各种不同的模式识别场景下提供极佳的准确率,但是也指出该技术在实际应用中仍相当具有挑战性。从中不难看出:或许搜狗是国内语音领域第一个吃“深度学习”这只螃蟹的公司,而能在此基础上以这样快的速度形成高度成熟的产品,搜狗技术人员的努力实在令人叹为观止。可说从开拓创新和拥抱前沿的角度上讲,虽然搜狗最后起跑,但是今天却已经冲刺到了领先的位置上。

  3、方言识别成技术攻坚重点

  整句识别是语音输入最为重要的应用场景之一。而尽管从本次评测来看技术进步迅速,但是几大语音输入产品在整句识别方面仍然存在着从一成多到近三成不等的错误率,仍有很大的改进空间。不得不说,作为语音识别领域的资深行家,讯飞技术积累从其产品在这一方面的性能上的优势中可见一斑——目前仅有搜狗语音输入的性能以微弱地差距紧随其后,其他产品则尚有较大的差距。

  据参与测评的技术人员介绍,除了性别差异外,整句识别误差主要源自于测试人的地方口音差异(这一点也是此测评的一项关键设计)。这一结果也确实反映出中文语音识别技术较之其他语言的一个特有难关。在此次测试中,仅讯飞与搜狗两种语音输入应用在面对全国各种主要地方口音的时候均能表现出较好的性能(这其中,讯飞甚至已将“方言输入”作为其主要特点之一)。尽管如此,当测试人操较浓重方言的时候,被测输入法均只能在背景噪音干扰较低的情况下方能令人满意地工作。可预期,怎样进一步提高识别方言的能力,将成为语音识别领域接下来的研发重点。

  随着技术的发展,如今互联网行业已经全面迈入无线时代,移动端产品在产业中的重要性正在不断提高,可谓是“得无线者得天下”,语音识别技术将更加成熟、应用也会更加广泛。最新数据显示,搜狗无线业务总体展现出蓬勃发展的势头,移动用户总数和移动搜索份额均稳居行业第二。而从搜狗在语音技术上令人意外的突破上看来,搜狗的确是敏锐而准确地把握住了未来发展的主流趋势,在移动布局上已占得先机,而其在语音识别技术上的快速发展也将使其赢得更多。