剑客
关注科技互联网

IBM 语音识别新方向:仿生蝙蝠耳能用声纳精准“聆听”

IBM 语音识别新方向:仿生蝙蝠耳能用声纳精准“聆听”

蝙蝠使用生物声呐,为夜晚在丛林中飞行导航。他们的超声波脉冲,可以比人造声呐装置更精确地对声音进行定位。为复制、驾驭这种能力,IBM 学院奖获得者 Rolf Müller 教授协同他在弗吉尼亚理工学院(Virginia Tech)的团队,设计了一种人造蝙蝠耳。

Rolf Müller 的研究引起了 IBM 的注意。IBM 专家韩金萍(音译)的神经计算团队,和 IBM Watson 语音专家崔晓东(音译)和他的同事, 看到了 Müller 教授人造 “动态外耳” (dynamic peripheral,蝙蝠可转动的外耳使它们的生物声呐更加准确)的潜力 ,并希望借此提高人类语音理解的能力。他们把 Müller 的博士生 Anupam Gupta 纳入团队,一同他们探索人造蝙蝠仿生耳在语音处理的应用。

他们发现,这些仿生耳 不仅是很有效的声呐装置,对语音识别同样能起到作用

IBM 语音识别新方向:仿生蝙蝠耳能用声纳精准“聆听”

模仿菊头蝠的人造耳

研究团队根据蝙蝠改变耳朵形状的能力,仿制了一个动态接收系统。 能提高自动语音识别系统(ASR)的精确度,还能更准确地对谈话者定位。 韩金萍将在他们的论文《受菊头蝠启发的接收动力学把动态特点加入语音信号》,及本周美国声学协会第 172 届会议上展示了这一发现。

这些动态系统有潜力发展成让使用者“像蝙蝠那样聆听”的语音接收设备。这 会改进现有的助听器和指向性传声器。 并可应用于任何需要对声音来源进行定位、理解的场景。

设想你身处一个忙碌、吵闹的集市。听清楚你旁边的人在说什么都可能是一项挑战。有了这项技术,同伴的声音就能被一个可变形的助听器识别,然后翻译成你能听懂的话。它还可以过滤掉闹市的杂音,和其他人嗡嗡的说话声。

仿生蝙蝠耳的生物声呐算法

蝙蝠的超声波具有 10 – 200 kHz 的频率,而人耳只能识别 20 Hz – 20 kHz 的声音。因此对我们来说它声调太高,大多数是听不到的。为了驾驭蝙蝠的生物声呐频率和精度,Gupta 加入韩金萍团队 编写能够把语音讯号转化为超声波脉冲的代码 ——然后再把超声波转化为我们能够听到的正常语言。

这首先需要建立一个数据库。为了尽可能地简化,韩金萍团队使用了卡内基梅隆大学开源数据库中,11 个美式英语朗读者的英语字母和数字的发音。

举例子,以字母“A” 或者数字“1”形式出现的数据,被麦克风接收,然后转化为超声波信号。超声波扬声器播放该信号。随后,具有“动态外耳”的人造蝙蝠耳接收信号。最后,软件把超声波信号转化为原始数据——字母“A” 或者数字“1”。

现实(闹市)中的人造耳朵

虽然只包含字母和数字的声音信号数据库有较大限制,但通过分析它,韩金萍团队表示人造耳用“动态、方向性的的时间频率模型”丰富了语音信号。下一步,研究人员把人造耳处理后的声音与原始语音进行对比,来衡量人造耳的精度。因此,他们把原始语音数据和经人造耳处理的声音数据,放入分类器( classifier )中进行识别。 67% 的语音信号能被成功识别出来。而在没有动态外耳的对照组中,只有 35% 的声音数据被识别

有了更多的可用分析数据后,研究员们将着手用行业基准来对该系统进行测试,并开发仿生学习算法。再或者,将来他们可能会开发一个“聆听” app,把智能手机麦克风变成接入物联网的指向性麦克风,来帮助使用者选择现实中他想要听到的声音。IBM 研究人员认为,实现它并不是太遥远。

via ibm

【招聘】雷锋网 (公众号:雷锋网) 坚持在人工智能、无人驾驶、VR/AR、Fintech、未来医疗等领域第一时间提供海外科技动态与资讯。我们需要若干关注国际新闻、具有一定的科技新闻选题能力,翻译及写作能力优良的外翻编辑加入。工作地点深圳。简历投递至 guoyixin@leiphone.com 。兼职及实习均可。

相关文章:

谷歌收购语音识别开放平台 API.ai,或将其整合在 Allo 中

微软研究院新成果!对话语音识别水平超人类,错误率仅为 5.9 %

思必驰雷雄国:语音识别将是万亿级物联网设备的标配 | 万物互联创新大会

雷锋网原创文章,未经授权禁止转载。详情见 转载须知

IBM 语音识别新方向:仿生蝙蝠耳能用声纳精准“聆听”

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址