剑客
关注科技互联网

今天我们来给一个剃刀打个广告

今天我们来给一个剃刀打个广告

有一把剃刀可厉害了,阿基米德在卫生间里用它剃出了简洁的浮力公式,牛顿从繁琐的稿子里用它剃出出了优美动能公式,爱因斯坦从庞杂的证明中用它剃出了曼妙的质能公式,至于高斯……高斯不长胡子,高斯不需要剃刀……

嘛,大家都猜到了,这叫奥卡姆剃刀。

嘛,这把剃刀肯定不是奥卡姆发明的,一般而言认为是上帝跟高斯商量了以后,回到创世初期,做出了这把剃刀。

那奥卡姆卖剃刀的时候是怎么说的呢?

“如无需要,勿增实体”

这听起来像玄学啊……嘛,剃刀嘛,天气热了,知识青年上山下乡接受劳动人民的再教育,于是咱村头的剃头匠老张头决定开个会解释一下,老张头这么说的:“天气恁个热,要那么多头发爪子嘛,来我给你都剃了,放心剃不到头皮。”

人民群众的智慧是伟大的,老张头解释的简单易懂(大雾),这里的头皮,就是指的有效信息,是真理,头发指的就是蒙蔽住真理的玩意。头发越多,自然风也就更难吹到头皮,熵就越多(热),然而我们只知道真理是埋在头发里面的,具体埋在那里不知道,辣么,剃掉的头发越多,真理也不就越明了?

嘛,想到这里,住在牛棚里的知识青年们折服在了劳动人民的智慧底下,高兴地拍起了肚皮……

今天我们来给一个剃刀打个广告

剃头匠老张头微微一笑,捋了捋胡须,来来来,剃刀好处都有啥,谁说对了豆给他。小李被分到园林部门当临时工,负责给决策树裁剪枝条,先开始说了。

小李说,领到为啥安排我给决策树修剪枝条呢?因为啊,领导喜欢到树上摘果子吃。但是呢,咱村这树有点……畸形,虽然每棵树长得差不多,但是一般有上万根枝条,却不是每一根枝条上都有果子,所以我们得沿着树干去找果子,一般长了果子的树枝会有一些特征,我们就能沿着这些特征找到果子,找到了好多果子,领导就不会把我扔到夹边沟去了。

然后我发现了一个问题,如果我每次判断的时候,进果园里,看到一棵树都沿着枝条走到头,然后告诉采果子的二麻子哪样的枝条有果子,二麻子按照我说的去找,因为两棵树相差可能很大,这颗枝叶上有果子,下一棵树并不一定就有。那二麻子爬到决策树上,拿回一堆没果子的枝叶,那就不合适了。

我想了想,嘿,那我就“裁剪”一下决策树,让二狗子每次不需要爬到枝端去拿枝叶,直接把看起来有果子的树枝全给我抱回来,不就行了嘛。果然,这下采到的果子大幅提升,领导也开心了!

小李继续说,其实啊,我描述3根枝条的长度,就能大概说清楚这棵树咋样的枝条结果子了。但是我描述了5跟枝条的长度,事实上说的还是那3根的特点,那我何必说5根呢?既然最小描述长度是说3根,那我就只说3根的就是了嘛。

说到这里,老张头满意地拍起了肚皮,说,好,咱劳动人民就是有智慧。来来来,那这个最小描述长度,二麻子,你体会到了,说一下呗?

二麻子说,好,辣你要我解释最小描述长度,我就先解释一下“贝叶斯定理”吧。

小学生都能理解的贝叶斯公式。 – 机器学习笔记 – 知乎专栏 (作者懒得再写一遍了自己去看,正好写道了最小描述长度)

老张头不乐意了。嘿,我咋看不懂,你是看不起我小学没毕业是卟?

照你故事里的公式这么说,岂不是任何一个描述语句都应该满足奥卡姆剃刀原则了是卟?你咋能这么绝对捏?你这是严重的左倾主义,信不信老子把你工分扣完?

冤枉啊大爷。所以我说奥卡姆剃刀是玄学啊……

那为毛是玄学呢?

事实上来说,对于奥卡姆剃刀原则,每个人的理解是不同的(但是大多数人很难意识到)对于(像我这种)一般群众来说,一般人对奥卡姆剃刀的理解有3种方式:

1、如果在某个可定义范围内若找出了最优解(最优描述),那么不应当在此范围的周围再去添加任何描述(就算这个描述是对的)。

2、如果我无法分辨出最优描述,那么,在备选的描述中(可容忍描述误差范围内),优先选择更简洁(信息熵最小)的描述。

3、如果我无法分辨出最优描述,那么优先选择更符合直觉经验的描述,而不选择人脑思考起来更累的抽象逻辑描述。

对于这3点的理解不同,造成了很多人在辩论奥卡姆剃刀这个问题上的区别,有的人认为是觉得正确的,有的人认为是模棱两可的,比如这个纸糊问题 「奥卡姆剃刀原则」是正确的吗? – 哲学 就是,每个答主对奥卡姆剃刀的理解都不一样,看这些人的评论区的辩论真是好玩……有的人认为是玄学。由于我只是一个纸糊小透明菜鸟,并不敢和基督徒或绿绿们讨论他们的神符不符合奥卡姆剃刀原则,所以我只说这3点(删除线)。

现在先从第一点来说,老规矩,咱要说得小学生都能看懂:

1、

现在有一个描述,你已经得知是最优解了。例如,对于若干个数字1和数字2,组成一个只允许使用加法运算的简单等式,让你描述:

那么,由于只允许使用加法,最简单的,当然是只用一个加法运算符的:

1+1 == 2

然而我们知道,这个也是正确的:

1+1 + 1 == 2 + 1

但是这种情况多用了两个加法运算符,就算这个描述是对的,由于我们只需要组成一个运算符,所以按照剃刀原则,这个应该抹去,而选择第一个描述,也就是对于这个命题下,我们选择的描述为:

1+1 == 2

很容易理解吧?所以,如果已知最优解了,当然应该选择使得信息量最少的最优解,而不是去添加一堆东西。

从第一点来说,因为每一个信息都有一个大于等于0的概率产生杂音,产生杂音就会降低准确率( 小学生都能理解的贝叶斯公式 里证明过了),所以在第一种理解前提下,奥卡姆剃刀当然是对的……

然后看第2种理解方式:

2、

「奥卡姆剃刀原则」是正确的吗? – 哲学 问题中的采铜先生(哎,得一年看不到这哥们的更新也是有点伤感。好怀念哪个剃刚毛的答案……),他对于奥卡姆剃刀的理解,个人感觉就是第二种方式。

那么为什么第二种方式的情况下,奥卡姆剃刀原则就不一定正确了呢?这里我举个例子。

假设,现在小明要向小白证明“我是你爸爸”(咦……我咋又玩起这个梗了……)。小明可以选择两个不同的描述方法集合,第一个描述方法领包含的信息熵为50KB,准确率为50%,第二个描述方法集合描述方法包含的信息熵为50GB,准确率为99.9%

那么,在这种情况下,如果单纯按照奥卡姆剃刀原则,选择了描述方法1,可能小明最后的证明就会以失败告终。而如果选择描述方法2,也许小明向小白传递信息的能力有限,50GB信息传送过去损失了一大半,结果最后准确率还不如99.9%。

那么这个问题怎么解决呢?

所以要考虑小明向小白证明我是你爸爸,需要达到多少的准确率?允许传递的最大信息量是多少?有多少前提条件需要考虑?大家的知识背景是什么……

所以各位看官明白了吧?这个问题,实际上就是因为对于问题的描述简化了,导致下一个问题变得无法解了。想来估计出题的脑残作者也对这个问题的描述使用了并不该使用的奥卡姆剃刀吧……(哎哟,别打脸……)

所以关于理解2,就出现了一个问题,如果并没有办法debug 出最优解,那么,就有可能发生剃胡子刮到肉的情况,这就是现实生活中为什么奥卡姆剃刀原则不是完全适用的。

但是从另一方面考虑的话( 接下来才是重点上面大部分信息是我在逗逼 ),可以这样理解,对问题的信息熵为I(X),对答案的描述的信息熵为I(Y,X)。

刚才这个解答过程犯得一个明显的错误是,分别单独考虑I(X)和I(Y,X),分别使用奥卡姆剃刀,而不是对 I(X) + I(Y,X)来用剃刀,所以事实上并没有满足所谓的最短信息描述,讲道理不仅没满足最短信息,这一拆开,连贝叶斯公式都没满足了。

也就是说,在理解2中,所谓的 奥卡姆剃刀,并不是最短信息描述。

嘛……但是很多人对于奥卡姆剃刀的理解的确确实就不是最短信息描述啊~~~~~~~~~~~

所以就出现了第三种理解方式:

3、玄学の剃刀

这就是大多数反剃刀的人理解了。怎么说呢?对于很多人来说,所谓的简单和复杂,并不是基于这个描述的信息熵的,而是基于这个描述我是否能直观看得懂。

举个例子,正太啊不对正态分布,这两种描述方式(都是图)

描述1: 今天我们来给一个剃刀打个广告

描述2:

今天我们来给一个剃刀打个广告

对于大多数人来说,会直观觉得,嘛,描述1很符合直觉,一下就看得懂。描述2……撒撒撒,这都是些潵。

然而我问了问我家电脑,以他的理解,描述1,电脑认为它的信息量是3.14kb。描述2,电脑认为它的信息量是1.30KB。显然描述2对于电脑来说,是信息熵更低,也就是更简洁的。

当然,这里我不是说描述1和描述2谁更正确。我要说明的是两张表示内容一样(正太分布),表达载体一样(都是图),表达方式不相同,传递的信息量在不同信息接受体(比如人)中直观感受到的,也许并不一样。

而既然接受体都不一样,那自然无法得出一个普世的结论,得到的结论具有主观差异(加上理解2里说了,这玩意这样思考已经不一定满足贝叶斯公式了。),玄而又玄,那到底剃刀原理有没有效呢?这特么就成玄学了。

剃头匠老张头高兴了。嘿,二麻子你小子可以啊,把咱的剃刀说得有板有眼的,咱人民公社要发展轻工业,行嘞,就由二麻子你,负责生产奥卡姆剃刀吧!让全国的剃头匠,都用上咱的剃刀!把全国的男女老少,头都剃的像那红太阳般锃亮锃亮的!

啥……张大爷,这剃刀没法生产啊……

有什么没法的,人有多大胆,剃刀有多大产,有困难,自己克服!

散会

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址