剑客
关注科技互联网

微软建的技术总比一个人在理解谈话

微软建的技术总比一个人在理解谈话微软研究团队负责制定的新的里程碑。后面一排,从左到右︰ 韦恩熊、 杰弗里 · 茨威格、 弗兰克 Seide。前排,小冬黄、 东峪、 迈克苏打水、 Jasha Droppo 和安德烈亚斯 · Stolcke。丹德龙

在 2015 年 12 月,微软首席科学家的语音小冬黄告诉商业内幕”四至五年内,计算机将在人类一样好”在理解你嘴里说出来的话。

不少于一年后和微软刚刚宣布可以录制的内容与”相同或更少的错误”的电话系统创下比真正实际人类专业训练中转录。

这是技术的一个巨大的里程碑,为语音识别,即使像亚马逊回声和苹果的 Airpods 的小工具证明声音要发挥大的作用在未来。 黄的标准,即完成了使命。

“我们是能够比我们预期的更快移动”靠先进的人工智能和声学技术,微软首席研究员杰弗里 · 茨威格告诉商业内幕,”我们能够在这里更快。”

配电板试验

早在 20 世纪 90 年代,美国国家标准和技术协会 (NIST) 释放一大堆的电话录音中英语、 西班牙语和普通话,被称为”切换面板,”以此来保持事情的公正是语音识别研究的领域。每个人都工作从相同的数据,所以没有人可以作弊。

从那时起,很多公司,包括 IBM、 谷歌和微软本身,有用作切换面板测试,检查他们的语音识别软件的准确性的主要途径之一。

电话是巨大考验,因为在现实生活中,人们喃喃自语,喃喃自语,咳嗽,和否则绊倒他们的话语,使自动转录”更困难的任务”比茨威格说︰ 可在实验室条件下。

微软建的技术总比一个人在理解谈话微软卓越工程师黄小冬微软

早在 9 月,黄宣布通过博客条目,微软研究院取得了错误率总机试验的 6.3%。他说微软的错误率被认为是最好的整个行业和只有一根头发以上 5.9%的平均错误率之间专业誊写员。

所以,微软做了一些微调,模型,和做茨威格说没有人做过的︰ 考了总机,把它交给专业人士,抄写,比较的结果。

为什么没有人采取前的那一步了?也许因为它是”超出想象”,甚至最好的系统甚至接近匹配一个人类,茨威格的推测。无论如何,结果回来,NIST 验证它们。

微软已经正式建立是比人类更好的语音识别系统。

下一个是什么?

在短期内,这种技术要让微软的柯塔娜虚拟助理更好地理解你。长远来看,茨威格说,微软正在努力在使用这个成功的模式,然后将其调整为更多的情况。

现在,它是侦听好、 稳定座机电话上交谈的最优化。与核心语音识别算法都是稳定的现在他们可以修改使其更好地了解你,当你在喧闹的城市街道或回声-y 的会议室里,或甚至使用麦当劳免下车。

更多的人使用它在所有这些情况下,越好它获取的每一个人,茨威格说,随着算法学习和提高。

茨威格说,”这是一种技术,也在不断提高,”。

微软建的技术总比一个人在理解谈话对 Android 的 YouTube 微软 Microsoft 柯塔娜

一般情况下,这门科学是巨大和重要的一步向前语音识别变得越来越重要,对未来的技术。你嘴里出来对词汇的理解能力,具有坚实的基础上,建立更好、 更聪明的人工智能,可以找到在字的四周上下文。

茨威格说:”我们居然要推进的语音识别技术”。

[剑客-翻译]

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址