剑客
关注科技互联网

老罗大秀的语音识别技术,真的高不可攀吗?

老罗大秀的语音识别技术,真的高不可攀吗?

在 18 日晚的锤子手机 发布会上,老罗现场给我们展示了科大讯飞 97%正确率的语音输入。在他碎碎叨叨的说完一串话后,手机几乎是实时同步地把语音转化成了文字。速度之快、准确率之高,着实是让人惊艳了一把。一下子就通过他的“单口相声”把语音识别技术再次领到了人们的眼前。

其实提及语音识别,那不得不说的就是 Nuance 了,就好比提到了 iPhone 你就会想到乔布斯一样。Nuance 有着辉煌的历史,曾经在语音领域一统江湖,它主要是以统计推断方法为基础,着眼于音节的声音和语境来识别话语。由于有着多年的技术沉淀,所以在引擎和算法这块相对先进。

但是在具体应用上,因为目前整个市场的纯识别率几乎都在一个水平线上,差不多都达到了 Nuance 采用的技术极限,所以语音识别技术也并非高不可攀,好的语音识别系统很大程度上还是依靠经验,算法这块是其次。就比如老罗现场给我们展示的科大讯飞 97%正确率的语音输入,像国内一些语音识别的初创企业目前也能实现。差距感不再,基于目前的技术,哪怕是在该领域的大牛 Nuance 也会受到周围环境的噪音、用户发音程度、方言等因素的影响。就拿我们的方言来说,一个市区都可能有很多种方言出现,要想正真的普及用户,这技术的前景并不乐观。这也是为什么语音输入出现了这么久,仍旧是不瘟不火状态的原因。

老罗大秀的语音识别技术,真的高不可攀吗?

图片来自腾讯视频截图

在基于人工智能的发展上,有了语义理解的突破,这才使语音识别技术更上一个台阶。虽然微软 CEO 萨提亚·纳德拉曾称赞,语音识别突破的意义不亚于将图形界面引入电脑。但这也是在基于语义理解的基础上。语义理解技术就是将机器学习的方式模仿人类大脑的神经元,当处理的语言越来越多时,这种网络就可以逐渐理解语言。实验结果发现,这种技术可使得精确度提升 25%以上,这是一个巨大的飞跃,因为这个行业只需要提升 5%就具备革命意义。因此目前国内外发展语音识别技术的,都着力在语义理解上做突破,比如微软的小冰、苹果的 Siri 等。只有在能理解的基础上,才有交互的可能。老罗给我们展示的语音输入,可以说也就是语音识别里的初级门槛。

接下来我们来盘点下目前国内专门从事语音识别技术的企业。

科大讯飞

科大讯飞可以说是目前国内最具影响力的语音技术公司,成立于 1999 年底,并于 2008 年挂牌上市,目前的市值接近 500 亿,绝对是中国该领域目前的龙头企业。但是其实它最大的收益还是来自教育。目前所有省份的口语评测用的都是科大讯飞的引擎,其占据了考试的制高点,一时想要打破它的霸主地位应该很难,毕竟中国的家长都愿意为孩子的教育买单。

捷通华声

捷通华声成立于 2000 年,依靠的是清华技术,成立初期力邀中科院声学所的吕士楠老先生加入,奠定了语音合成的基础。是国内较早倡导并实现同时提供语音合成、语音识别、手写识别、光学字符识别、自然语言理解等技术的全方位人工智能技术提供商。

中科信利

中科信利也是成立在 2000 年左右,依托于中科院声学所,其成立初期技术实力极为雄厚,不仅为国内语音识别行业培养了大量人才,而且也在行业领域,特别是军工领域发挥着至关重要的作用。但是在市场运作上,由于此前有着行业的一些背景,基本上参与的不多。

云知声

云知声成立于 2012 年。云知声团队主要来源于盛大研究院,但外传他们与科大讯飞是“师兄弟”,因为他们的 CEO 和 CTO 都是中科大毕业的。此前搜狗采用的就是他们的语音识别引擎。由于此前有一小段时期内语音识别率甚至超越科大讯飞。因此也受到了资本的热捧,B 轮融资达到 3 亿,主要瞄准智能家居市场。

思必驰

思必驰于 2007 年在英国剑桥的高新区创立,早期曾提供语音口语教育服务。但由于国内科大讯飞在教育上占领着制高点,在 2014 年年底,它开始转型,将其口语教育业务剥离出去并被网龙全资收购,自己则把精力收缩专注智能硬件和移动互联网,最近更是集中精力聚焦车载语音助手。据悉,思必驰已经完成了 2 亿元的融资。

出门问问

出门问问成立于 2012 年,致力于打造下一代移动语音搜索产品。2015 年更是拿到了 Google 的 C 轮融资,融资额累计已经 7500 万美元。出门问问主要瞄准可穿戴市场,最近自己也推出了智能手表等产品,更多的是致力于去打造软硬件结合的落地产品。

另外,国内参与语音技术这块的互联网大企业也不在少数。

由于语音识别的门槛并不高,且该市场的潜力巨大,因此国内各大公司也逐渐加入进来。比如百度就请来了人工智能领域的泰斗级大师吴恩达,组建了自己的语音团队,专门研究语音相关技术;搜狗在采用了云知声的语音识别引擎后也开始建立了自己的引擎;而腾讯在微信上也早就应用了语音转化文字的功能,其他的像阿里、爱奇艺、360、乐视等也都在搭建自己的语音识别平台。

就目前国内语音识别行业的现状来看,似乎大家的引擎识别率都在一个水准上,维持着一个巨大的平衡。相信未来该领域还会有很多企业的参与,以后语音识别的性能可能更多的体现在前端技术和语义理解上。在未来物联网发展的时代里,智能家居、自动驾驶等,人机交互的需求会越来越强,而目前在这些领域很多简易的语音交互已经实现。所以在这一层面上来说,语音识别技术也并非高不可攀。

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址