剑客
关注科技互联网

[译]为什么数据是最新的运煤

The Data Science Institute at Imperial College, London. ‘Deep learning requires very large quantities of data in order to build up a statistical picture,’ says Imperial’s Murray Shanahan. Photograph: David Levene for the Guardian

亚历克斯波高的季节变化

星期二 2016 年 9 月 27 日 06.26 EDT 最后修改于星期二 2016 年 9 月 27 日 06.29 EDT

  • 在 Facebook 上分享
  • 通过电子邮件共享
  • 在 Google + 上共享
  • 在 WhatsApp 上共享
  • 在信使上共享

“I s 数据新油吗?” 在福布斯 》 杂志在 2012 年重新问大数据的拥护者。2016 年,和大数据涡轮动力的表弟深度学习,我们变得更加肯定的兴起:”数据是新的石油,”说财富。

亚马逊的尼尔 · 劳伦斯已略有不同的类比︰ 数据,他说,是煤炭。不是煤炭今天,虽然,但 Fcoal 在早期的 18 世纪,当托马斯 · 纽科门发明了蒸汽机。泥盆纪五金,纽科门建造他到泵水的南西部多产锡矿山的设备。

这一问题,正如劳伦斯告诉重新工作会议在深入学习在伦敦,是泵是对那些有大量的煤比那些没有的人更有用︰ 它是好的但不是好买煤运行它。这是蒸汽机的很真实的纽科门第一不蒸汽机的建成在锡矿山,但煤炭工程附近达德利。

那么为什么是数据煤呢?问题是类似︰ 有很多的 Newcomens 在深入学习的世界。创业公司像伦敦的魔力小马和 SwiftKey 要来的革命性新方法训练机做令人印象深刻的壮举的认知,从重建面部数据从颗粒状图像到学习写作风格的个人用户更好地预测哪个词他们打算去中键入一个句子。

Facebook Pinterest

Newcomen’s haystack boiler, which was made in the 1730’s and was one of the first to use his steam engine. Photograph: Rischgitz/Getty Images

不过,像纽科门,他们的创新人与更多对人民有用的人其实有大量的原料,从工作。魔法小马通过 Twitter,所以被微软 — — 收购 SwiftKey 和劳伦斯自己获取受雇于英国谢菲尔德大学,在那里他根据直到三个星期前从亚马逊。

但有尾的故事︰ 69 年后,詹姆斯 · 瓦特向一个很好的调整纽科门的蒸汽机,添加凝汽器的设计。这种改变,劳伦斯说,”使蒸汽发动机效率更高,和这是什么引发工业革命”。

是否数据是石油或煤炭,然后,有另一种方式类比举起︰ 大量的工作都去试图确保我们可以做,少花钱多办事。它不是作为教学电脑玩去或吃豆人比任何人活,使人印象深刻,但是”数据效率”是关键的一步,如果深度学习要搬离只是吞噬巨量的数据和吐出可能的最佳关联。

“如果你看看深度学习是成功的所有领域,他们是所有地区那里有大量的数据,”指出了劳伦斯。这是伟大的如果你想要分类图像的猫,但不那么有用,如果你想要使用深学习诊断罕见病症。”我们是一般认为不道德,迫使人们成为生病可以用来获取数据。

机器保持愚蠢

问题是,所有成功的团体,例如谷歌的 AI 研究组织深刻的头脑,,电脑仍然是在实际上学习太糟糕了。我可以告诉你你从来没有见过在你的生活 — — 也许短尾动物图片吗?— — 和那一个图像将为您提供足够的信息来正确地标识在完全单独的图片完全不同短尾。显示的第一个图像的短尾还要好,预受过训练的神经网络,和你会很幸运的如果它甚至根本调整其模型。

另一面,当然,是哺乳动物的,如果你学习系统深几个亿的照片短尾,随着几万张图片的每个其他现存,你能很好最终与哺乳动物识别系统可以击败所有但的表现最出色的专家,在分类小毛茸茸的东西的。

帝国学院穆雷罕说,”深度学习需要非常大量的数据,建立统计的图片,”。”它实际上的很确实很慢在学习,而一个年轻的孩子很很快就会明白了这个想法。

深度学习专家已提出几种方式来解决问题的数据的效率。像很多领域,他们是最好的思想通过类比与你自己的大脑。

一种办法涉及”渐进式神经网络”。它的目的是要克服许多深度学习模型有当他们进入一个新的领域的问题︰ 要么他们忽略他们已经学到的信息和重新启动或运行”忘记”他们已经学会了它获取的新信息覆盖风险。想象一下如果你选项时学会识别短尾要么独立重新学习的元首、 身体、 腿和皮毛,整个概念或才试着把你现有的知识但忘了一只猫看起来像的风险。

Facebook Pinterest

A six month old Quokka … cute, but tricky for a machine to remember without a deluge of data. Photograph: Taronga Zoo/PR IMAGE

Raia Hadsell 负责深心努力实现更好的系统深度学习 — — 一个是必要的如果公司是继续朝建立人工的一般智力其长期目标是︰ 一台机器能够做相同的和你的任务集。

“还有没有模式、 没有神经网络,在世界上可以训练来标识对象、 玩太空侵略者,和听听音乐,”Hadsell 说,在重新工作。”我们想要能够做什么是学习任务,到达 [] 的专家 [水平] 在这项任务,然后到第二个任务的大部分。第三,然后出来然后第五。

“我们想要做到这一点不能忘记。与转让从一个任务到另一个任务的能力︰ 如果我学到一项任务,希望帮助我学会下一个任务.”这是什么 Hadsell 的团队深刻的头脑在工作。他们的方法允许学习系统”冻结”什么知悉约一个任务 — — 说,玩撞球游戏 — — 和,然后转移到下一个任务,同时仍能够回头参考它是第一个学到的东西。

“这可能是一个有趣的底层视觉功能”— — 学习如何分析单个对象在河上的视觉数据,例如 — —”或高级别政策功能”,如知识小的白色圆点必须保持你的桨的正确一边。它很容易看到如何前者是有用的交接给其他 Atari 游戏,而后者可能只是有用的如果你想要训练的突破。但如果你正努力培训突破,它可以让你跳过整整一大块的学习。

Facebook Pinterest

Video captured by a Google self-driving car coupled with the same street scene as the data is visualised by the car. Photograph: Elijah Nouvelage/Reuters

显然深刻的头脑仍然是实际使用技术培训的一般人工智能有关,这意味着他们也无意中释放出超常的 AI 会重用你的大脑变成一颗行星全台超级计算机中的一个节点的世界上了几步几步之遥。但是,Hadsell 说,渐进的神经网络技术的确有一些更直接的用途,提高数据的效率。

把机器人技术带。”数据是一个问题的机器人,因为他们打破,他们需要的照顾,而且他们昂贵,”她说。一种方法是使用蛮力的问题︰ 例如,采取 2 万英里字母表的自动驾驶汽车已在他们学习如何驾驶的企图。在开始的时候,才安全地使用高速公路,然后甚至同司机手英寸从车轮。现在,它的驱动器没有方向盘的汽车根本 — — 虽然不,然而,在公用道路,出于法律原因。

另一种方法是教通过仿真机器人。饲料及其传感器的现实世界中,粗略的近似值,他们仍然会去学主要是正确︰ 然后你可以”充值”与实际的培训教育。最好的方式做到这一点是与渐进式神经网络,她说。

采取一个简单的任务︰ 抓住一个浮球使用的机械臂。”在一天,我们训练这个任务鲁棒在仿真……如果它过一个真正的机器人,它会采取 55 天培养。”挂接到真正的胳膊,只是性能的另一个的两个小时,培训是性能的所有它需要回到同样级别。

教他们想一想

还有另一种方法。沙纳汉帝国学院一直在 AI 足够长的时间来记住它击中炒作周期的第一次。那时候,流行的做法并不是深学习,一种只有变得尽可能的处理能力,存储空间的方法和数据的可用性有所有的时代到来。相反,较受欢迎的办法是”象征性”AI︰ 重点建设逻辑的范例,它可以一概而论,,然后就送入关于真实世界,教给他们更多的信息。象征性的 AI 中的”符号”是,沙纳汉说,有点像”句在英语中,该国关于世界的事实。”或一些域

不幸的是,这种做法不能扩展,和 AI 在低迷了几年。但沙纳汉认为有一种混合方法的两个好处。不仅有助于数据的效率问题,而且它还有助于与透明度相关的问题:”它是很难提取人类可读的解释,他们做出的决定,”他说。你不能问为什么它决定短尾是短尾; AI它只是做了。

沙纳汉的想法是建立一个象征主义风格的数据库不是通过手动编码,但通过挂钩与另一种方法,称为深强化学习。就在那时人工智能学会通过试验和错误,而不是通过检查大量的数据。它是 howDeepMind 的 AlphaGo 的核心学会玩,例如。

Facebook Pinterest

The world’s top Go player Lee Sedol reviews the match after the fourth match of the Google DeepMind Challenge Match against AlphaGo in Seoul. Photograph: Reuters

在概念验证,汉团队建造 AI 来玩简单的游戏去。从本质上说,训练系统,不是来玩游戏直接,但教第二个系统规则的游戏和世界的状态,以便它能想到更抽象的概念什么。

就像 Hadsell 的方法,那回报时,规则略有改变。在常规深度学习系统狼狈,汉更抽象的系统是能够普遍认为关于这一问题,请参阅先前的作法是相似和继续。

认为智能

某种程度上,可以夸大数据效率问题。没错,你可以学习的东西一件了不起的学习系统,例如典型深比快多了。但不是只是你开始你的事业 — — 几乎极少量的数据 — — 你还的先前知识的年价值有没有好的深学习系统会忍受的弱点︰ 你忘了。好多。

这可能是有效的思维系统的成本。你忘了如何去做的东西,或者你花不断增加资源简单排序之间万物你知道试图找到最适合每一种情况。但如果要为移动深度学习研究中心中最大的互联网公司付出的代价是,它可能是值得的。

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址