剑客
关注科技互联网

两次成功预测美国大选结果的数据大神Nate Silver,这次会押谁? |陈经

两次成功预测美国大选结果的数据大神Nate Silver,这次会押谁? |陈经

两次成功预测美国大选结果的数据大神Nate Silver,这次会押谁? |陈经

请点击“风云之声”,打开新的世界

科技与战略风云学会,受过科学训练的理性爱国者们组建的智库。科学素养,家国情怀,横跨文理,纵览风云。

导读 :Nate Silver的方法揭示了一个深刻的道理,预测并不是一下子的事,而是一个概率序列,是需要不断收集信息更新认识的。一开始预测粗略或者改变倾向都是正常的,只要最终收敛向真实结果,这种方法就是科学的。只要细心收集数据、处理数据,这种方法是可以重复的。每次美国大选都可以用,其它事件也可以。

————————————————————————————————

说起美国大选,不少新闻和舆论总是提到一个“数据大神”Nate Silver。如2016年7月20日,新闻引用Silver的预测,希拉里大选获胜概率为64.2%,领先特朗普的35.8%。9月26日第一场电视辩论会之前,媒体又引用Silver的预测,“如果立刻大选”,特朗普的胜率是51.1%。电视辩论会之后,在Silver建立的“538”网站上,希拉里的胜率明显提升,2016年10月1日为67.3%,10月7日已到达80.7%。

Nate Silver早年是搞统计的,对数据非常有兴趣,在审计公司毕马威当了四年顾问。后来打德州扑克赚了40万美元,虽然作为职业扑克选手并不算太出众,却让他开始靠数据分析创业。他对美国职业棒球大联盟的球员数据进行了细致独到的分析,预测非常成功,做的网站也成功被人买走。

然而,真正让Nate Silver名声大噪的,是他对2008年和2012年美国大选的成功预测。2007年Silver建立了“538”博客(后来变成 http:// fivethirtyeight.com ,因美国大选有538张选举人票),独树一帜地靠数据分析进行时政预测。2008年大选,Silver预测对了50个州选举结果中的49个。2012年,他预测奥巴马胜出概率高达9成,和一般专家说的奥巴马与罗姆尼五五开的预测很不同,最后结果出来全部50个州都预测对了。大选后第二天他接受专访,被脱口秀主持人称为“算法之神”。这让Nate Silver彻底火了,他解释预测技术的书《信号与噪声》销量增长800%,成为畅销书榜第二名。2016年美国大选,Nate Silver又在538网站上不断更新对大选的预测,继续得到极大关注。

那么Nate Silver到底是如何精准预测美国大选的呢?

两次成功预测美国大选结果的数据大神Nate Silver,这次会押谁? |陈经 Nate Silver

1、靠数据而非直觉

首先,Nate Silver进行预测并不是靠所谓的“直觉”,而是纯粹地靠数据,对众多的数据用算法进行处理。所以他做的是一个预测算法,编程实现的,报告的是计算结果,是“胜率80.7%”这种精确的数值,不是“希拉里优势明显”这种模糊的话。

在美国大选这个事件上,算法依靠的主要基础数据就是各种各样的“ poll ”,即大选民意调查。 美国大选历时数月之久,全国以及每个州都有各种机构主办的不同规模的大选民意调查,一个州对一次大选可能有多达上百次的民调。如对佛罗里达州,538网站共收集了68次民调数据。

这就是Silver需要的“信号”。但是由于各种民调的机构背景、立场倾向、覆盖人群、举办时间差异极大,参考意义肯定各有不同,如何处理就是真正的技术了。这相当于要从一堆“信号”中,排除掉“噪声”,得到真正有效的信息。

Nate Silver依靠的基础技术叫“贝叶斯理论”,是关于概率的理论。这听上去有些高深,特别是写成概率论里的P(A|B)这样的数学形式时,容易让人“不明觉厉”。其实并不难解释,原理很简单。

在没有任何信息时,可以认为希拉里和特朗普的胜率各为50%。这时出了一个州的民调,说问了1000个人,支持希拉里的有600人,投特朗普的有350人,还有50人两人都不喜欢,会投给独立参选人约翰逊。这么点人,应该决定不了最终的结果,但是据此上调希拉里的获胜概率,如调到50.1%,似乎有点道理。

如果全美有几千个这样的民调,全部考虑进来,有的让希拉里胜率增加,有的会提升特朗普的胜率,最后综合下来,就会有一个最终的胜率报告出来。

2、选期越近预测越准

值得注意的是,随着选战不断发展,新的民调数据会出来,老的民调效用趋向减小,算出来的概率是不断波动的。538网站每天都会算出最新的大选胜率报告出来,形成胜率曲线,下图是直至10月1日的胜率曲线。其实每个州都有一个单独的胜率曲线,得票率也有具体的估计。

两次成功预测美国大选结果的数据大神Nate Silver,这次会押谁? |陈经 10 1 日的胜率曲线

所以,我们不能说Nate Silver看好谁,他是没有“预设立场”的。Silver报告的胜率不断波动,领先者是可能发生变化的,8月初特朗普就领先过。这正是他与一般预测专家不同之处。

一般专家预测成功了,可能会说我提前一年就看好最终获胜的人了,我的直觉好,有远见。如果一个专家3月看好希拉里,5月改看好特朗普,9月又改回希拉里,人们可能会说这什么鬼专家,变来变去太不靠谱了。

如果“专家”是基于一些冲动的理由,预测变来变去,那是不靠谱,让人觉得一惊一乍的,生活中是有些人会如此。但是从数据处理的角度来说,早期基于不完全的信息,作出一个概率预测,误差大在所难免。等时间过去,更多有效信息来了,预测就能更为精准,这时对过去的预测进行调整,是再正常不过的事,“坚持立场”不调整反而不对。

特别是美国大选这样的事,本来就有很大的不确定性,有些信息就是未来才能确定的。例如,10月希拉里可能被挖出一个大丑闻,相比没有发生这样的事,对选战影响肯定不同。

Nate Silver 的分析方法好处是,随着最终大选的时间点临近,他的有效数据信息越来越多,算法预测会越来越准,最终和大选真实结果差不多了。 如2012年对50个州的结果全部预测正确。而一般专家很难充分利用有效信息,多少会凭感觉去蒙,不会这么准确。

Nate Silver的方法揭示了一个深刻的道理,预测并不是一下子的事,而是一个概率序列,是需要不断收集信息更新认识的。一开始预测粗略或者改变倾向都是正常的,只要最终收敛向真实结果,这种方法就是科学的。只要细心收集数据、处理数据,这种方法是可以重复的。每次美国大选都可以用,其它事件也可以。

3、算法复杂而精确

当然,对于每一个民调数据,如何影响计算出来的概率,这是需要仔细考虑的,是预测算法真正的细节。这些民调差异极大,有时甚至给出完全相反的结果,如何解读确实不容易。538网站进行了细致的解释,如根据过去12次大选的历史记录,对发布民调机构的权威性进行分级,计算时分配不同的权重。针对民调覆盖的人群进行调整,如西裔会更倾向希拉里一些,不能代表全国的情况,要相应下调。

除了民调数据,经济数据也可能被考虑进来,因为经济数据好,会对在任党派有利,是重要影响因素。

这样的调整非常多,需要精心的数据观察,也需要对美国大选的具体过程很了解,是非常专业的。这也是可以不断改进的,538网站从2008年到2016年三次大选,都有一些小调整,2012年就加进了几个调整项。

Nate Silver还邀请读者对具体的调整细节提出批评,或者提出更合理的调整项。可以看出,这是科学的数据处理算法的研发过程,有非常多的细节。

一般专家根本不会这么考虑问题。要么说不清自己为什么看好某人,诉诸于神秘的直觉;要么说几个简单的理由,搞得好就说是抓住了要点,不好就是发生了意外。Nate Silver可以解释清楚每天预测的胜率是怎么来的,公开给出复杂而精确的算法,对时政预测领域这是革命性的思想变革。

Nate Silver实际给出了几种算法,虽然不同算法的区别并不太大。如有一种算法考虑了经济数据,另一种不考虑,最终二者算出的数值会在大选前夜重合。

我们甚至发现, Nate Silver 预测过程中的概率波动,与谷歌围棋程序 AlphaGo 和李世石对弈过程中的胜率曲线很类似! AlphaGo在对弈过程中也是每一步都不断更新双方胜率,高低起伏。但到棋局定型的时候,就会给出80%之类的高胜率,实际上胜负已定。

Nate Silver是在用科学方法模拟选战,和AlphaGo多次模拟下完整盘棋计算胜率的科学原理是相通的。大数据暴力模拟比起人类的“直觉”自有它的优势。

两次成功预测美国大选结果的数据大神Nate Silver,这次会押谁? |陈经 AlphaGo 与李世石第二局的胜率曲线,由 Darkforest 程序进行估算

4、胜率也只是一个概率

值得注意的是,Nate Silver的预测方法非常依靠数据。所以,与其说他是“预测大神”,不如说他是是“数据大神”。美国大选可以搞这种精确的胜率计算,因为各种媒体与机构报告了海量的民调数据。

可以肯定地说,没有一个民调是完全靠谱的,都会有偏差,有意或者无意。但是几千个民调提供的原始数据是很有意义的 ,因为可以对这些数据进行建模,无论误差是有意还是无意,都可以根据数据背景以及历史表现,进行有道理的调整。具体的调整方法太复杂,一般人不用去研究,但不难认识到这种方法的先进性。

如果没有足够的有效数据,那么Nate Silver就不能进行精准预测了,从他的方法来看会如此。这时某些直觉良好的专家可能就有用武之地了,这也是可以想象的。也许专家通过梳理逻辑,抓住了事情的关键,给出了方向性的预测并最终成功。这种情况肯定还会有,依靠数据预测并不能包打天下。但是在数据足够的情况下,需要对Nate Silver引入的这种方法足够重视。从方法论来说,对数据进行越来越精确的建模,将各种因素尽可能多地考虑进来,是更科学更先进的。

具体到美国大选这个事,不能简单地说“大神Nate Silver看好希拉里”,所以就觉得特朗普肯定完了。Silver自己解释了,他计算出来的是一个概率,并不是一个肯定的事。希拉里10月1日以67.3%领先特朗普的32.7%,这并非排除了特朗普的胜利可能。实际上算法会进行20000次模拟,其中有6000多次是特朗普获胜。因为离大选还有一定时间,会有不确定性,会带来“误差”。

主要有三种不确定性,一种是全国性的波动,会对每个州的数据都产生影响,如选举人丑闻爆出,所有州的数据都下调。一种是特定人群或者特定区域的州会受影响,如希拉里对中部地区人群出言不慎。一种是单一的一个州的波动。对可能的波动建模,Silver没有用正态分布,而是用了更为平滑的t-分布。有的波动对希拉里有利,有的波动对特朗普有利,各种波动都模拟下。最终模拟出来希拉里在67.3%的情况下获胜。实际特朗普也有不小的获胜次数,差距并不大。

这并不是说希拉里的民调有67.3%的支持率。在20000次模拟中,希拉里的得票率预测值是47%,只领先特朗普的43.9%三个点,所以才会在模拟中有6000多次被“波动”翻盘。每一次模拟会对50个州都分别给出两人的得票率,高的人会占有这个州全部的“选举人”票,50个州加起来是538张选举人票。如佛罗里达州,模拟中即使希拉里只以47%领先特朗普的46%,这个州所有27张选举票也全归她,而不是按比例分。模拟中总共得到270张或者更多选举人票的就胜利了。美国大选的这种“赢家通吃”的特殊制度,使得占优的候选人的胜出概率,要远高于群众支持率几个点的差别。 在大选前夜,可能 Nate Silver 会给出 90% 这样的获胜概率,即使两人的支持率差距仍然只是几个点。

5、“摇摆州”靠图预测

其实Nate Silver能在2012对50个州的结果全部预测正确,并没有想象中这么神奇,这不是50个独立事件,是有关联的。因为很多州的结果是早早确定的,预测并不难。如亚拉巴马州,特朗普的胜率99.4%,一直接近100%,没有人会预测错误。其实这个州的民调数据,特朗普预期得票率只是以56%领先希拉里的36%,但特朗普的获胜概率足够大,近100%了。只有一些“摇摆州”的预测有些难度,但也不是神迹,可以用下面这个图来解释。

两次成功预测美国大选结果的数据大神Nate Silver,这次会押谁? |陈经 10 1 日蛇形图

这张图代表了10月1日的情况,蓝色是希拉里占优的州,红色是特朗普占优的的州,颜色越深优势越大。长度代表一个州的选举人票的多少,中间的虚线是各得269张选举人票的平衡点。可以看出,希拉里的“优势”其实只有两三个州,颜色不深,可能会被翻盘。如在佛罗里达州,希拉里的预测胜率56.2%领先特朗普的43.2%,但预期得票率只是46.7%,领先特朗普的45.7%很小,可能一个小事件就被翻盘了。如果Silver大选前夜计算时,对中间的分界点算得极准,那就可能50个州全对,因为后面的一长串都是对的。2012年就全对了,2008年错了一点位置,有一个州没预测对,但由于奥巴马优势够大不影响全局。2016年的选战从图中也有能看出,比较胶着,Silver也说很接近。

国庆长假结束后,选战又有发展,按538网站10月7日的最新数据,希拉里的胜率达到了80.7%。在蛇形图上,希拉里占优的州又增加了三个,变成了下图这样。Nate Silver说得票率差距扩大到5%-6%,第一次电视辩论后,特朗普的数据持续恶化。

两次成功预测美国大选结果的数据大神Nate Silver,这次会押谁? |陈经 10 7 日蛇形图

希拉里与特朗普的选战棋局,将在11月8日出结果,还有一个月左右的时间。从胜率来说,虽然希拉里领先,还远没有定局。我们可以继续观察双方胜率曲线的变化。如果领会了Nate Silver对大选数据进行科学处理的算法精神,我们就不用一定坚持看好某方,或者选择性地只看符合自己预期的信息增强“信心”。

在预测时要心平气和地保持中立,观察各种信号的强弱,排除“噪声”的干扰。如果信号够强,就果断作出选择。 如果在大选前夜,Nate Silver对某方给出了90%这样的胜率,这对我来说,是足够强的“信号”,我准备相信他。

详细的计算方法与调整项解释在: A User’s Guide To FiveThirtyEight’s 2016 General Election Forecast

作者简介 :笔名陈经,香港科技大学计算机科学硕士,科技与战略风云学会会员, 微博@风云学会陈经。二十一世纪初开始有独特原创性的经济研究,启发了大批读者。2003年的《经济版图中的发展中国家》预言中国将不断产业升级,挑战发达国家。2016年8月出版新书《陈经说:中国的官办经济》。 两次成功预测美国大选结果的数据大神Nate Silver,这次会押谁? |陈经

【本文2016年10月9日发表于瞭望智库微信公众号( 两次成功预测美国大选结果的数据大神Nate Silver,这次会押谁? )。】

请关注风云学会的微信公众平台“风云之声”,微信号fyvoice

知乎专栏:风云之声 – 知乎专栏

一点资讯: 【一点资讯】风云之声 www.yidianzixun.com

今日头条: 风云之声 – 头条号(TouTiao.org)

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址