剑客
关注科技互联网

微软研究人员达到会话语音识别中的人类奇偶校验

微软已在语音识别中,取得了重大突破,创造一种技术,能够识别这些字词在谈话中的像一个人一样。

在周一发表的一篇论文,一个团队的研究人员和工程师在微软人工智能和研究报告使得相同或较少的错误,比专业的转录员语音识别系统。 研究人员报道误码字率 (WER) 的 5.9%,下降 6.3%从疫情周报 》 teamreported 只是上个月。

5.9%误差率是约等于这个人被要求抄写相同的谈话,和它的录得的最低对行业标准的总机语音识别任务。

“我们已经达到人类的奇偶校验,”小冬黄说,该公司的首席演讲科学家。”这是一个历史性的成就”。

里程碑指的是,第一次,一台电脑可以认得这些字在一次谈话,一个人会。在这样做的过程中,团队 hasbeat 目标他们设置少于一年前 — — 大大超过了其他所有人的期望。

“甚至在五年前,我就不会想我们能取得这一。我只是不会有思想有可能,”saidHarry 沈文焘,副总裁,微软人工智能和研究组的负责人。

经过几十年的研究在语音识别中,DARPA,负责国家安全的技术突破的美国机构与 1970 年代早期开始来研究的里程碑。几十年来,大多数重大科技公司和很多研究机构加入的追求。

“这一成就是顶点的二十多年的努力,”saidGeoffrey 茨威格,管理演讲和对话框研究组。

里程碑将产生广泛的影响,为消费者和商业产品,由语音识别可显著增加。这包括消费娱乐设备,如 Xbox,即时语音文本转录等辅助工具和个人数字助理等柯塔娜。

沈文焘说:”这将使柯塔娜更加强大,使得一个真正智能的助理,”。

奇偶校验,不是追求完美

The research milestone doesn’t mean the computer recognized every word perfectly. In fact, humans don’t do that, either. Instead, it means that the error rate – or the rate at which the computer misheard a word like “have” for “is” or “a” for “the” – is the same as you’d expect from a person hearing the same conversation.

茨威格归因系统使用最新的神经网络技术在系统的所有方面的成就。

使得研究人员开始在上面推了神经语言模型的词表现为连续向量空间,并且像”快”和”快”字都是紧密的使用。

茨威格说,”这让我们概括词与词之间很好的模型,”。

梦想成真

Deep neural networks use large amounts of data – called training sets – to teach computer systems to recognize patterns from inputs such as images or sounds.

为了达到人类奇偶校验里程碑,这个团队使用了微软的计算网络工具包,该研究小组已经取得可用在 GitHub 通过开放源码许可的深度学习本土系统。

黄说 CNTK 的能力,以便快速处理深度学习算法在多台计算机,运行专门的芯片叫做一个图形处理单元大大提高了速度,使他们对能够做他们的研究,并最终达到人类的奇偶校验。

收获是快速,但一旦团队意识到他们这样做是很难停下来。黄说到达了里程碑约 3:30 上午;他发现了当他醒了几个小时后,在一个私人的社交网络上看到一个胜利的帖子。

“这是梦想成真,对我来说,”说黄,他们对语音识别工作了三十多年。

消息传来同一个星期,微软的研究人员都专注于计算机视觉,另一组自己的一个里程碑。球队赢取冠军在可可图像分割的挑战,而法官如何很好的技术可以确定图像中某些对象在哪里。

郭百宁,微软亚洲研究院,助理总经理说分割是特别困难的因为这项技术必须精确地确定边界的对象中图片的显示位置。

“这是最难的要弄清楚的图片部分,”他说。

队的结果,建立在屡获殊荣很深神经网络系统专家设计去年微软的计算机视觉,是 11%比第二个更好的地方优胜者,以及显著改善了微软的第一个地方赢得了最后一年。

“我们继续成为图像识别领域的领导者,”郭说。

从识别到真正的理解

Despite huge strides in recent years in both vision and speech recognition, the researchers caution there is still much work to be done.

向前迈进,茨威格说,研究人员正在研究如何确保语音识别也在更多的真实的设置工作。这包括地方那里有大量的背景噪音,如在一次聚会或在高速公路上开车。他们还会集中在如何更好地帮助将名称分配给个别扬声器,当多个人们在谈论,并确保它适用于各种不同的声音,不分年龄、 口音或能力的技术。

在长期来看,研究人员将侧重如何教会电脑不只是抄写出来的人的嘴巴,声信号但相反,对词汇的理解他们所说。这会给技术回答问题或采取行动的基础他们被告知的能力。

茨威格说:”下一个前沿领域是从识别移动了解到,”。

沈文焘指出,我们正在从哪里人必须理解计算机到计算机必须理解我们的世界的世界。尽管如此,他告诫说,真正的人工智能仍然是遥远的地平线。

“这将是更长的时间,走得更远的路才开始计算机能理解的真正含义,是说或所示,”沈说。

[剑客-翻译]

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址