剑客
关注科技互联网

[译]炸数据

一个小的 web 存档为约 2 万人跑被邀在国会图书馆就像一个孩子胶水纸鳍纸筒,然后获取要求谈谈美国国家航空航天局火箭推进。正如每个扬声器已正确地说,它是信号荣幸能来这儿。

它也感觉很奇怪在特区,在所在地的政府发言。在大部分的我给的会谈,美国政府是对手。

但是,今天我在一个政府机构,冠军不只是自由,但基本隐私权和尊严,这就需要。期间,伴随 9 月 11 日的恐慌,美国图书馆协会,时任卡拉 · 海登,参加了反对的规定的原则立场要求馆员来揭示他们的顾客在读爱国者法 》。她做这事面对嘲笑检察长 Ashcroft 和行政。当然只是几天前,她成为了我们新国会图书馆馆长。

[观众给它为无以伦比的卡拉 · 海登]

今天我在爱国者法 》,在当时看来如此威胁和美国式的这些条款看上去几乎有些离奇难过。这次不是政府的但已努力拆除隐私商业互联网。

通过他们的道德准则,馆员势必保护顾客的隐私。但这种保护意味着少当亚马逊知道你读到页上的每个电子书、 谷歌有你完整的通信和网络历史记录,和您的电话公司与你心甘情愿地在你的口袋里携带设备跟踪你的动作。

这一信息,一次收集,成为永久的、 不可磨灭的记录没有问责制或限制的一部分。

商业互联网是一个惊人的成就。但其价值是图书馆对面。图书馆有通知,我们这些人在线生意尽全力从你中提取信息。在图书馆尽量做到不偏不倚,我们实践不断操纵。每个链接都有不可告人的动机。单击此选项阅读,查看这个广告,打这只猴子,、 高于一切,一切都与我们分享,不管如何私人,永远。

然而,这些联合国图书馆员在处理大数据集合取得了真正的技术突破。人们只把自己的藏品在线,这提出了一个问题如何同一个世界,它的值是令人厌恶,但他们的专长是诱人。

机器学习

今天我要和你谈谈机器学习。我宁愿你听说它从我比你的朋友在学校,或在大街上。

机器学习是像深层脂肪油炸食品。如果你从来没有过炸东西之前,你自己想:”这是令人惊叹 !我敢打赌,这会在任何事情上工作 !”

和它善良的呢。

在大学的时候,打工小吃店的朋友们进行了广泛的研究,这些方针。他们将炸奶酪、 糖果、 笔、 他们的名称标记。所有的它出来味道很大。

在我们的例子,油炸锅是工具箱中的统计技术。名称不断变化 — — 它曾经是无监督的学习,现在它被称为大数据或深度学习或 AI。明年它将调用别的东西。但核心理念不会改变。你训练一台计算机上的大量数据,和它要学会识别结构。

这些技术是有效的但相同的泛型方法工程跨越广泛的域的事实应该让你可疑多少顿悟它添加。

任何深油炸局势的影响下,一个好的问题要问的是︰ 什么这种东西被炸的?

在七十年代,我们有一个家伙从意大利带高压的油炸锅,设置一个鸡小屋里一个波兰的度假小镇。他被称为 Frico 马球这项事业。因为它是在共产主义制度下,你不得不把自己的鸡。

Frico 马球可能在三分钟的压力-炒一只鸡。它又油腻又热,你曾经尝过的最好的事情。人们站在与他们的鸡行几个小时。然后一天卫生部门到达和关闭的事情。原来经营者从来没有一次改变了食用油,像机器一样屋面焦油滴水的嘀嗒声。这就是所有的独特的味道从哪儿来的。

所以什么是您的数据被炸中?这些算法训练大集合,你知道什么的。像谷歌网站经营规模,数以百计的次数比任何在人文学科。任何违规行为,因为训练数据最终注入分类器中。

为此我已经提到机器学习作为偏差洗钱。它很容易放任何你想要在训练数据。

例如,如果你去谷歌翻译和粘贴在阿拉伯语语言篇文章恐怖主义或叙利亚的战争中,你得到读取像它由英语母语的人写的东西。如果您键入在营地,孩子们的信或摘录自一部小说,英语文本读取像它写的弗兰肯斯坦的怪物。

这不是因为谷歌的算法是长庚-浩战争机器,但反映出的数据在它被训练语料库。我敢肯定其他语言会显示自己的违规行为。

偏见并不总是一个问题。机器学习的一些用法是良性的本质上。在早些时候的一次谈话中,我们听到关于查明诗歌在报纸基于格式,图像识别优秀使用。OCR 是另一个领域那里有不会的问题。

其他人,不过,会产生问题。我会非常谨慎的使用”情感分析”或任何与社交网络没有仔细的实验设计。

我觉得它有帮助想算法作为奸污但非常勤劳的研究生,你完全不信任的人。你想要取得一致吗?索引吗?你希望他们穿过 1000 万的照片,找到每个图片的一匹马吗?完美。

你想他们得出的结论对基于 word 使用模式的性别?或推断社会关系从人口普查的数据吗?现在,您需要在房间里一些成人监督。

除了这些偏见的问题,在致力于计算工具的也是机会成本。什么惹恼我有关爱情与算法是潜力的他们移除大量的惊喜和意外发现,你得到的与人合作。

如果你去寻找数据中的模式,你会发现数据中的模式。呐喊-德-斗。但任何新鲜和独特你数字集合中不会通过深锅。

我们已经看到整个字段数值兔子洞前的深处消失。经济学来了第一,社会学和政治学仍然试着要出去,生物信息学在那儿的地方,已经在一段时间没有消息。

你花大量的时间去皮和 julienning 您的数据之前,请考虑 — — 这真的是最好的路要走呢?

计算机消除的苦差事。但兴奋是人的潜能。今天,第一次,我们可以提供的东西有互联网连接在这个地球上的任何人。我不认为我们已经内化这一步骤的艰巨性。

只在线投掷数据是不够的。几年前我担任项目官员在梅隆基金会,和我们大的项目之一是 JSTOR。我记得学习一半集合了永远不会来,这是在搜索结果中。集合中的大部分已经永远不会被浏览,但它的一半甚至从来没有一直在搜索页上。也不可能存在的那一半。

问题的一部分是与出版商的极大限制协议。但它的一部分是想象力的失败。我们已经数字化的阳光下,每个杂志文章,但都力图将数据连接到外”学院”,狭义的人。

我们错过了太多的机会 !例如,我们完全搞砸了维基百科。没有人能想象那样成功假名、 协同努力。它不是学术 !我的老板最终考虑印刷和出版一份硬拷贝这是只要我们到达与维基百科在梅隆大学。

后来我看到图书馆员未能参与充满活力的社区,在 Flickr 和美味,他们以后会去爱,因为他们非结构化的方法标注的服务。那里是缺乏信任和开放的实验,会产生显著的合作。

园艺的数据

大量的数据语言是萃取。我们谈论了数据处理、 数据挖掘或处理数据。它是种岩石的矿,我们粉碎与重型机械要得到好的东西。

在培养社区,我更喜欢园艺的隐喻。你需要合适的条件、 有利的气候、 肥沃的土壤和少量的废话。但你还需要一点耐心,除草,和抚育。当你自由地播下种子,你用的风可能不是你的预期。

如果我们认真对待将收藏品数字化使得他们更容易接受,我们便要接受这些集合的各种人和活动会吸引的想法似乎很奇怪我们。我们不得不放弃一些控制。

这应使完美的感觉。人类的文化是多样的。这是正常的应该有不同种类的食物,音乐,舞蹈,和我们享受这些差异。除非你是硅谷的优等生,你喜悦的事实上还有数百种不同的菜,而不是单一的米色饮料给你所有你营养。

但网上,我们的视野狭窄。我们期望领域专家和程序员能够满足大家的需求,视线看不见的。我们认为是正常的建立一个社会网络为 70 亿人。

我认为这是摩门教酒保问题。了解人们的需要需要至少有点内脏的经验。

让我给你一个例子从我自己的什么是放弃控制的工作。我运行一个非常香草的书签网站,在那里你可以节省 Url 之后。它是一个个人搜索引擎的学者、 记者。我甚至有一位用它来准备他每周布道的牧师。

但其中一个最大的用户群体是科幻小说作家。一半的你是图书管理员,但我们能不能假装,我需要向你解释什么同人小说是。这是人的充满活力写的故事,经常高度情色,设置在虚构宇宙的各种亚文化。如果你总是虽然有火花福尔摩斯和华生之间,我有一种业余爱好你。

同人小说作者采用标记系统在我的网站,这样他们可以使用它作为一个搜索引擎和出版工具。他们做很多额外的工作,使其适应他们的需要。

这就像看蜜蜂到达并设置他们的蜂巢。能做的只是在好奇的观察,尽量不要被蜇。作为回报,我得到了一群勤劳和极其积极的用户,并学到很多关于在线隐私。

互联网需要获得更离奇。人在外面也厌倦了油炸的数据,和想要的物质。他们会做有趣的事。但你必须相信他们。

在机构的设置,这可能是令人恐惧。它需要勇气,寻求一笔赠款,使收集网上与没有可衡量的结果,除非它吸引了有趣的用途,希望。它需要更多勇气奖授予。它需要勇气为年轻教员要投入时间和精力到有人可能会使用以制作猫的视频项目。在大多数机构,之所以不是皇家道路使用权。

它需要勇气,致力于维护这些集合,并保持接触和使用它们,几年来的人。

但智能生命在互联网上搜索意味着收拾一些对我们社区的使用是谁的预想。

同人小说作者对我的网站都只追求一个无害的古怪的爱好吧

我没有意识到的是,在线、 轻浮的共混物的严重。同人小说作者往往是妇女。布瑞塔古斯塔夫森呼吁影迷秘密研讨会女权主义。年轻的球迷用故事探讨性别身份的问题 (在某些情况下,他们会发现第一次是有这种事性别身份)。他们学会解构情节元素将使俄国结构主义者脸红的方式。他们的教练互相提高写作能力。他们也教练彼此在技术。

它是重要的是意识到严重的人可以有轻浮的爱好。设置在那里年轻人分享高口径学者的爱好 — — 也许是一些人在这个房间里 — — 想法可以过滤下来。

我的朋友萨贾德在即将举行的一次谈话中,描述了球迷的男孩乐队一个方向的类似的东西。这支乐队有强迫症的以下的年轻妇女,和在记述他们心爱的乐队成员,达到高度的技术成就相媲美任何人从事专业媒体的生活。 他们是事实上的专业档案人员、 开发人员、 视频编辑和记者。但是”真正的”技术人员不认真对待他们的兴趣,因为这些妇女不认识到他们自己的成就。 他们从不会适用的工作岗位,他们已经在发挥作为球迷擅长。

还有这种暗物质有才华,有进取心,有兴趣的人在线。我相信我们更好的时间试图去理解他们,同他们,比使用相同的工具。

社交媒体数据

到目前为止已经谈使集合在线,但也是如何处理社会出生在互联网上的数据的问题。还有太多了,太迷人了。

一种方法是去控制数据的人 — — 大公司 — — 和与他们的合作伙伴,来研究它。

它是尴尬的因为国会图书馆馆长的事反对爱国者法案 》 中 — — 侵入式监视 — — 是面包和黄油的在线服务。很多有价值的信息永远不会在学术界,通过道德标准的方式收集和甚至美国国家安全局的方式将法律上禁止收集。

数据是存在的而且你可以听到它呼唤你。

它咕咕地叫”研究我”。”维护我,”它恳求。因为痴迷于缺乏信誉的公司肯定不会增长。

“分析我”。

你可以试图掩盖你的伦理审查,像一层漆层的疑虑。但你不能隐藏下方的丑陋。

我担心合法化普遍监测文化。我很难看到例如 Facebook,社会科学家。

人是务实的。在缺乏有意义的保护,他们对隐私的方法成为”单击确定,祈祷”。每隔一会儿壮观的黑客,我们撼动了。但我们还没有看到个人信息的协调、 悲惨的虐待行为。这并不意味着它不会发生。请记住,我们生活在法西斯主义精神的继承,就在西方民主国家的数目在上升。风险很高。

大、 不受管制的行为数据集合是一种公害。

人们面对社会的压力而放弃他们的隐私。在 Focussing 上已经获得一份工作或公寓的预期的部分。边境巡逻队想要看看你的社交媒体。

所以在使用在线的庞然大物,意识到他们收集的行为数据不是协商一致。可以不同意对大众进行监视。这些商业模式和社会规范的收集一切,是仍然脆弱。借你给他们的声望,你将其合法化,并使它们更容易忍受。

WEB 存档

因为它是坏的伦理,囤积的人一起工作,你总是可以尝试在野外收集数据。

对影响制片公司工作的朋友向我解释如何一次数字特效 CGI 电影中的被保留。简短的回答是,他们不是。现代的影响被渲染鲁布 · 戈德像变得过时与每一部电影的工具链。工作室升级硬件,重写他们的软件,就是这样。更大的地方都有内部的档案保管员,继续的图稿和数字资产,但不是他们能让他们再拍成电影。

类似的事情可能发生在 web 上。原谅我的技术,但平均的 web 页面现在是一大堆的热气腾腾的垃圾。由浏览器开发人员只有超人的努力使得任何东西根本工作。页面加载时通过中介机构,与活的依赖关系和大部分的呈现在 JavaScript 中做几十个得到缝合在一起。

所以什么意思的存档,能够?您可以保存渲染后的图像在浏览器中,但是动态行为呢?没有自动完成职权范围内的存档吗?烦扰或到 2016年生活,我们应该为后人保存了宝贵的洞察力是一个动态的广告吗?如果这样的广告我们保存和如何,当它在退出通过十几个不同的广告拍卖和 hypertargeted 的查看时间查看器?

我们需要最终构建整个模拟器为在 2016 年,使用计算机是什么,如果是这样,将未来几代人原谅我们吗?

游戏开发商已经有纠结这个问题,有事情要教我们。早期的视频游戏是硬件的动物,和甚至开始模仿他们几十年后很有挑战性。我们能做到的唯一原因是人的因为那里是人的一个社会的爱玩老游戏放在工作。

国会图书馆的机关面临的一个问题是,它只是不能肆意卷起袖子也尝试一些方法,因为其实践将成为规范。但我们不能忽略 web,要么。

所以我寄托在社区,而不是工具的另一个原因是,他们可以帮助解释不可回避的任务。很多这种东西不能严格的保留,它要跨格式,移动,为了防止迷路的本质要求在保存它沉浸在世界人的参与。

赃物,例如,是博客网站的用户可能有头像,缩略图,其中每个注释的旁边会显示的位置。当你发表你的评论,你可以从一套的头像图片。在某种程度上,该网站改变了这些工作,所以你只限于小部分的图像。

LiveJournal 没有意识到的是发现人们利用这些图像作为视觉的评注。图像是进行评论、 光泽和修改它的意思。人很擅长这种形式的潜台词。

通过限制数量的图像,并进行更改追溯,LiveJournal 摧毁了大量的信息,它根本不知道存在。

这种错误是明显的不够如果你看看一个服务,但面临的挑战是,在线社区可以跨越多个服务,多年。

我们必须学会如何将发送出大使到在线社区,像他们一样与部落文明在安达曼群岛。你走出去,他们扔几个矛,您的直升机,但最终你要说话,可以互相学习。

这项任务十分紧迫,因为我们已经失去了这么多从 web。不仅没有 5%的 Url 类似消失每年事情去中大爆燃时,一家公司破产,或一个可怕的决定。

我已经敬礼档案队和互联网档案馆的努力,但他们的活动就像骑在一辆消防车,周围寻找燃烧的建筑物拉从古董博物馆馆长。它是英雄,这是令人钦佩的但它是没有办法运行一种文化。

该怎么办

专注于社区意味着放弃控制。就像我说的很可怕。但也有一些其他的步骤。

最重要的是使材料在开放格式,没有限制,和一个严肃的承诺中可用在持久性。这些都太需要体制的勇气。如果有人抓住了所有的数据,并与它不是学术的东西吗?

嗯,这是你想要什么 !生命的迹象 !

发布您的文本为文本。让得到的图像的图像。把它们放在 Url 后面,然后承诺来保持他们那里。URL 应该是一个承诺。

它不是足够得到种姓程序员工作与此数据,并使其完成的工作。通过一切手段,这样做,但不要假装你是你的数据是为唯一的仲裁人。你不是 !

我会说程序员一件不错的事情。你不必强迫我们在枪口下,或用巨大的金融贿赂的工作与感兴趣的数据。

我们很多人工作,都是智力上的刺激,但最终什么也不留下。有是人的一个人口众多的技术会喜欢做持久的贡献。我们有强大的文化,我们可以善加利用围绕项目的合作。

这是在哪里版权办公室也可以做很大的好处,,积极倡导公平使用和维护宪法制定者的意图在创建版权领域。

惆怅的结论

像我这一代的古怪的孩子很多,我花了半青春期在图书馆里,还是在家里阅读图书馆的书。教科书和蹩脚的 90 年代电视,国贸公立图书馆是我通往世界的窗口。

我永远不会反思为什么这不起眼的郊区图书馆存在,是由谁出资,其值有来自哪里,或多长时间,这将是围绕。这是世界的永远不变的我作为密歇根湖。

但它教会了我像其他人一样,我有权了解和欢迎。我可以问问题,并了解如何找到我的答案的方式。它教会了我在公共场所被安静的重要性。

现在成长的一代,互联网是他们通往世界的窗口。他们认为理所当然。它是只是我们已经成形,并且意识到的所有方式它可能是不同的明白,它是脆弱的特遣队。未来几年将决定到何种程度上互联网是一种媒介消费、 到何种程度上它会举起人,和到何种程度上,它将成为社会控制的工具。

事物的本质现在,互联网是一家购物中心。有两个大锚店,Facebook 和谷歌,在两端。还有一家苹果店在中间,随着清晰的图像,在那里他们试图卖给我们东西互联网。几个朋克孩子挂在美食广场,但他们真的不会制造麻烦。这个购物中心是良好警力和的安全摄像头无处不在。你们这些人在停车场,放在那里,试图使它优雅话。

我为 web 的梦想是为它感觉象大城市。在那里你和人交往那些不喜欢你的地方。某个地方还是有点害怕,有点乱,充满了一切你可以想象,很多事情你不能。一个地方那里有连锁店、 娱乐企业集团的余地也的人是自己,创造自己的空间,并学会从另一个空间的余地。

和当然,大的、 美丽的、 巨大的、 巨大的库的余地。

[观众凝视在全神贯注的奇迹作为三个扬声器装配以形成面板]

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址