剑客
关注科技互联网

微软开源Microsoft Cognitive Toolkit深度学习工具包

今天, 微软宣布 发布了 Microsoft Cognitive Toolkit 的更新版本,这是一个用于深度学习的系统,可用于加速 CPU 和 NVIDIA GPU 上的语音和图像识别以及搜索相关性等领域的发展。

这个工具包之前被称为 CNTK,最早是由微软一些想要更快更高效地做自己的研究的计算机科学家开发的。它很快就超越了语音领域并演变成了一个产品,包括一些领先的国际家电制造商和微软的旗舰产品组(flagship product groups)在内的客户依靠它来执行各种各样的深度学习任务。

微软 Artificial Intelligence and Research 部门首席科学家和 Microsoft Cognitive Toolkit 的一位关键架构师 Frank Seide 说:「我们将其从一个研究工具变成了可以用在产品之中的东西。」

微软开源Microsoft Cognitive Toolkit深度学习工具包

Frank Seide

该工具包的最新版本现已通过一个开源证书发布到了 GitHub 上,其新增功能包括对 Python 和 C++ 编程语言的支持。研究者还可以使用这个新版本开发一种叫做强化学习(reinforcement learning)的人工智能。

最后,该工具包的性能也优于之前的版本。它也比其它工具包更快,尤其是当需要跨多台机器运行大数据集时。为了开发消费者产品和专业产品,这种大规模部署对跨多个 GPU 的深度学习来说是必需的。

这也是加速研究突破的关键。上周, 微软 Artificial Intelligence and Research 宣布在识别对话上已经达到了人类的水平 。这个团队将实现这一里程碑背后的巨大速度提升归功于了 Microsoft Cognitive Toolkit。

开发了这个微软工具包的团队说其跨多服务器工作的能力是超过其它深度学习工具包的关键优势。当这个微软工具包被用于解决更大型的数据集时,可以实现更优的性能和准确度。Microsoft Cognitive Toolkit 有内置的算法来最小化这种计算的退化(degradation of computation)。

「使用 Microsoft Cognitive Toolkit 的一个关键理由是其可以针对大型数据集跨多 GPU 和多机器进行有效地扩展,」微软合作伙伴工程经理 Chris Basoglu 说,他在该工具包的开发中扮演了一个关键的角色。

微软开源Microsoft Cognitive Toolkit深度学习工具包

Chris Basoglu

Microsoft Cognitive Toolkit 可以轻松处理从相对较小到非常非常大等各种规模的数据集,既可以在一台笔记本上运行,也可以运行在数据中心中的一系列计算机上。它可以运行在使用传统 CPU 或 GPU 的计算机上;GPU 以前主要的用途是处理对图形要求较高的视频游戏,后来人们发现可以用它来非常高效地运行深度学习所需的算法。

「Microsoft Cognitive Toolkit 代表着微软和 NVIDIA 紧密合作以为深度学习社区带来进步,」NVIDIA 的 Accelerated Computing Group 总经理 Ian Buck 说,「和以前的版本相比,在扩展到一个 NVIDIA DGX-1™ 中的 8 个 Pascal GPU 之后,其性能几乎提升了两倍。」

Microsoft Cognitive Toolkit 是为在多个 GPU 上运行而设计的,包括 Azure 的 GPU 产品,该产品目前还是预览版。该工具包已经经过了优化,可以最好地利用 NVIDIA 硬件和 Azure 产品的网络功能。

民主化人工智能及其工具

当小型创业公司和大型科技企业都看到了深度学习的使用对语音理解和图像识别的可能性时,我们发布了该工具。

广义上讲,深度学习是一种需要用到大量数据(被称为训练集)的人工智能技术,从而能教会计算机系统学会识别图像或声音等输入中的模式。

比如说,可以用一个包含了各种水果和蔬菜图片的训练集来训练一个深度学习系统,之后该系统能学会自己识别水果或蔬菜的图片。它获得的数据越多,它的表现就会越好;所以每次当它遇到一个新的、长相奇怪的茄子或扭曲的苹果时,它都可以调整自己的算法以使其变得更为准确。

微软开源Microsoft Cognitive Toolkit深度学习工具包

在使用 Microsoft Cognitive Toolkit 训练语音声学模型中,随着应用更多的数据,它能收敛出更高的准确率。

这类的成果不只是研究的里程碑。由于深度学习的进步,加上计算马力的大幅度增长,我们如今有了像 Skype Translator 这样的消费者产品,能识别语音并提供实时语音翻译。还有 Cortana 数字化助手,能理解语音并帮助你做机票搜索和备忘约会这样的所有事。

微软首席语音科学家黄学东说,「这就是使用 Microsoft Cognitive Toolkit 民主化人工智能的一个样例。」

更灵活的完成更复杂的任务

Basoglu 说在他们第一次开发该工具箱的时候,他们发现许多开发者不能或不想写大量代码。所以他们创造出一个自定义系统,能让开发者更简单的配置深度学习系统,不需要额外的代码。

然而,随着该系统变得越来越流行,他们了解到一些开发者想将自己的 Python 或 C++ 代码与该工具箱的深度学习能力结合起来。

他们也了解到一些研究人员想要使用该工具箱进行强化学习研究。强化学习是代理通过大量试错直接学习做某些事的一种研究领域,比如在房间中找到线路或合成句子。这类研究可能最终引向真正的人工智能,也就是系统能够自己做复杂的决策。新版本的工具箱就给了开发者做强化学习研究的能力。

尽管 Microsoft Cognitive Toolkit 最初由语音研究员开发,如今却能被用于多种目的。

为了给用户提供更好的结果,Bing relevance 团队使用它更好的发现搜索词条相关的隐藏的链接。

例如,在用户输入「How do you make an apple pie?」的时候,带有深度学习的系统经过训练可自动明白用户在寻找菜谱,即使「recipe」一词并不在搜索词条内。没有这样的系统,这种规则只能手动编程。

Bing relevance 团队的软件开发工程师 Clemens Marschner 说,他们团队和该工具箱的创造者们有着非常紧密的合作,从而更好的让开发者做除了语音之外的深度学习任务。对他们而言,所得的回报就是使用大规模的计算能力快速的获得结果。他说,「没有其他解决方案能让我们这么简单的将学习在 GPU 上扩展到大型数据上。」

微软也在不断使用 Microsoft Cognitive Toolkit 改进语音识别。语音服务部门的应用科学经理 Yifan Gong 说,他们已经使用该工具开发出了更准确的声学模型,应用到了包括 Windows 和 Skype Translator 在内的产品中。

Gong 说他的团队依靠该工具开发新的深度学习架构,包括使用 LSTM 技术来为顾客导出更准确的结果。

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址