剑客
关注科技互联网

语音交互爆发前夜,新一轮变革由谁引领?

语音交互爆发前夜,新一轮变革由谁引领?

在漫长的5000年人类文明史中,有4000多年人类的交互行为只在人与人、人与自然物品之间进行。直到1946年,冯诺伊曼在宾夕法尼亚大学研制出世界上第一台现代计算机EDVAC,这才改变了人类交互的历史。而时至今日,人类社会正在经历着另一次交互变革——智能语音交互。

巨头纷纷秀肌肉,行业正迎来爆发期

智能语音交互是一个站在风口且具备足够想象力的领域,对科技巨头来说,这已经成为兵家必争的一块巨大市场。

根据Research and Markets 发布的调查数据显示,到2020年,全球智能语音市场规模预计将达到191.7亿美元。而中国工信部的调查报告则指出,2016年全球智能语音产业规模将接近九十亿美元,近五年间复合增长率高达35.1%。

事实上国内外诸多科技巨头早已看到了语音交互行业的潜力,并纷纷在这一领域大展拳脚。

亚马逊两年前推出了家庭智能语音交互产品Amazon Echo,其成为了语音交互和AI领域的代表产品,这项新产品带来的远大前景也成为了亚马逊的未来核心业务。

而苹果的Siri更被视为史上首个语音交互产品,Siri以问答交互形式开启了语音交互新世界的大门,这是智能手机终端的一次重大突破,也引发了智能助理机器人行业变革。

除此之外,微软旗下定位于商务助理的Cortana也是语音交互领域的代表产品之一。Cortana作为一款个人智能助理,可以让设备像人一样与你交流,能理解自然语言并做出回应。微软希望Cortana能比单纯检索信息做更多的事情,并最终能处理通信、管理日历、满足各种需求。

当然这个领域的参与者远远不止这三家公司,谷歌、Facebook等巨头都在进行着探索,而在大洋彼岸的国内,也有着不少玩家在语音交互领域大展拳脚,其中的佼佼者则有科大讯飞、搜狗和百度。伴随着巨头的纷纷布局,语音交互技术诞生至今,很显然已经到了爆发的临界点。

国内市场多强争霸,殊途同归却重心不同

语音交互领域中国市场不缺参与者,科大讯飞和搜狗两家公司则是其中的佼佼者。从最终目的来看,这两家公司很显然都希望能够引领人机交互的革命,但两者的发展路径却呈现出很大的不同。

作为智能语音交互领跑企业科大讯飞并不是一家互联网公司,其主要业务是企业级应用。其在C端消费者市场虽然也有科大讯飞输入法,但对科大讯飞来说如何服务好企业用户,才是其首先思考的事情。发力语音交互很大程度上则是因为企业用户需求的上升以及对更智能的交互方式的探索。

在语音交互领域,当然也有其他重要公司,BAT三巨头也在探索如何将语音交互技术运用到他们庞大的业务线中。而相比科大讯飞,具有浓厚技术基因的搜狗显得相对低调,但我们同样不应该忽视。事实上,搜狗在探索人工智能和语音交互等新兴技术领域的布局同样非常值得关注。

近两年间在搜狗人工智能的投入不可小觑,目前搜狗在AI领域的研发已经全面展开,仅2015年搜狗就投入了年收入的22%用作研发,今年6月更捐赠1.8亿给清华大学并联合成立研究院,致力于人工智能技术的研发。

与其他友商不同,相较讯飞走的大而全的企业服务方向,搜狗在语音交互领域的发展路径则显得更为从容。基于多年在输入法和搜索引擎领域沉积,搜狗发现了一个简单的事实:通过输入一个关键词得到十数条答案的搜索反馈并不能称之为让人满意的交互,人们真正需要的是输入一个问题得到一个精准的答案。

而正是基于这种思考,搜狗探索的方向更多是整合旗下新闻、地图等领域资源做出适用于垂直语音交互场景的产品。一个简单的例子是搜狗车载语音系统和生活服务进行了整合,能够提供车内场景全套智能解决方案,比如天气、股票行情、导航信息、新闻推荐、聊天小助手等功能。

时至今日,搜狗已经交出了一份优秀的答卷,最近一年力搜狗搜索日均语音搜索次数增长超过4倍,手机输入法日均语音输入超过1.9亿次,已经成为了国内语音输入功能使用量最大的移动手机产品。

谁将引领变革?更自然的交互或许会是未来

语音交互技术发展至今,成果无疑是喜人的,但整个行业仍然存在诸多不足之处。仅以国内市场为例子,目前,国内的一些语音产品则存在说话速度快则无法识别或识别出现无意义错词的问题,这与语音识别的准确度有着直接关系,而这严重影响了消费者们对智能语音产品的接受程度。试想若机器回复用户的第一句话就错字连篇词不达意,用户如果进行继续对话交互?

我们知道语言在5000年文明里已经扎根人类基因,因此诸多语音产品远逊人类的响应速度难言用户体验。所以只有更自然的语音交互,才能解决语音交互叫好不叫座的窘境,这导致的结果就是用户的使用频次变高,语音交互也就成为了新的交互入口。很明显,市场需要的是一种更准确更自然的语音识别技术。

而随着人工智能浪潮的来临,以及物联网场景下应用需求的不断扩大,智能语音产业越来越受到市场的青睐。搜狗早已确定了自然交互和知识计算作为其在人工智能领域的两大战略方向。如今搜狗在智能语音领域已经取得了重大突破,而“知音”引擎正是搜狗在自然交互方面的重要成果。

事实上,相较其他友商,搜狗语音产品知音引擎已经在一定程度上解决了不够自然的问题。搜狗语音拥有超过97%的识别率和每分钟可输入400字以上的领先技术水准,加上语音修改功能,更精准这一特性帮助其解决了语速快无法识别和识别出现错字的问题。

此外搜狗语音还实现了低于0.5秒的响应时间,并支持男女多音色个性定制。在业内,一秒的语音回复速度被认定为人与人之间的自然交互。搜狗语音还同时支持在和识别率超过98%的离线语音识别,这更令用户能感受到人机对话交互的自然流畅,大大提升了使用搜狗语音的用户体验。

在实现更自然的语音交互之后,使用场景随之变得尤为重要,而这几乎决定了这项新技术未来能够走多远。搜狗的车载语音通过数据闭环、智能推荐和精准搜索能力的整合,实现了理解用户场景和消费历史理解用户语音请求背后的意图,并做进一步的智能推荐服务。

而这只是语音交互技术高速发展历程中的一个缩影而已,语音交互显然会给人类社会的发展带来翻天覆地的变化,这会是一个值得期许的未来。

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址