剑客
关注科技互联网

Improving your statistical inferences第六周:科学哲学与理论

注:Improving your statistical inference是荷兰 Eindhoven University of Technology心理学研究者Danial Lakens在coursera上开设的一门公开课,目的是为了增加心理学研究者对心理学研究中常用统计的理解。本次更新第六周的内容。

第六周的内容比较偏理论一些,讲心理学研究中所涉及到科学哲学的问题。之所以讲这个,是因为统计推断与哲学的假设密不可分。在课前的阅读内容中, Paul Meehl 提到了Meehl这个不为人所熟知但却对心理学方法有着深刻见解的心理学家,他在明尼苏达大学曾经开设过一门哲学心理学,并且录制下来了,可以在 这里 下载视频和音频。

第一课,Daniel简单回顾了科学哲学的一些观点。这些讲解是与当前心理学研究中的可重复危机非常紧密相关的。首先提到的,就是Karl Popper关于科学与伪科学的区别:

Improving your statistical inferences第六周:科学哲学与理论 当然,也有一些其他哲学家的观点,例如,科学理论应该能够预测新的东西:

Improving your statistical inferences第六周:科学哲学与理论

是否falsifiable是科学的唯一标准?也有科学哲学家认为,单个或者少量相反的事实不应该推翻理论,除非有更好的理论出现。

Improving your statistical inferences第六周:科学哲学与理论

说完证否的问题之后,另外一个问题是,怎么算是falsified?可能是有些auxiliary hypothesis.

Kuhn的paradigm shift的观点也被提及了一下,到这里的时候,科学已经不是完全客观的东西了,而是依赖于一些paradigm的。再更近一点,更有哲学家认为,科学就是social product。

在某一处,Daniel说到了Platt在1964年写的经典文章 Strong inference 。在Strong inference中,Platt指出了非常重要析一点:不是所有的科学领域都是以相同的速度在前进的,有些会快一些,有些则慢,而之所以有些会的原因,这些领域的研究者普遍采用了strong inference的思路。这个文章非常值得一读。

第二个视频的标题是,the null is always false。 我们在心理学的研究中,采用的是Null Hypothesis Significant Test (NHST),也就是用数据去拒绝H0。但如果H0总是错的话,那么我们去拒绝它的意义就不太大了。在这里,测量变量(measured variables)与随机操纵的变量之间的区别就显得非常大了。测量的变量是那些已经客观存在我们无法改变的变量,例如性别;而操纵变量就是我们可以去变化的变量,例如,锚定效应中的锚定值,可以让它变成很大或者很小。当我们操纵变量时,H0会相对为说更加具体一点,当我们使用测量变量时,H0就很宽泛,为假的概率非常大。在课程中,Daniel列举了 Manylab的数据 为例子,在这个大规模的重复实验中,操纵锚定值仅对锚定的情况有效应,而对于其他的测量没有效应;但是性别的差异却在大部分的测量中都有差异。这种测量变量带来的差异,就像是系统偏差一样。这让我想到了某次博士论文答辩,一位老师指出,仅使用测量变量,不能算是实验,因此没有太大的意义。

如果说H0总是错的,那么为什么证否它没有太大的意义?因为它是非常弱的假设。就跟你假设今年12月会有降水一样。但研究往往需要强的假设,比如12月11日会降水,这样的假设也有更强的意义。

由于证实偏见(comfornative bias)的存在,我们总倾向于去证实某个假设,而不是进行检验关键的、可以证否理论的假设。所以我们要做的,是去克服自己的这种证实偏见,去找出关键的、强的假设进行验证。这一点,需要功力啊。

第三个视频:理论建构。先来一个对SfN2016的吐槽:

Improving your statistical inferences第六周:科学哲学与理论 理论在科学中的重要性,不言而喻。即便Daniel讲这么多统计推断,我个人认为主要的目的不是让心理家研究者变成做统计的人,而是在提出理论的时候,证据上是没有问题的,推断是合理的。虽然说这个视频叫做理论的构建,但主要是讲如何寻找理论的问题。里面提到了一些常见的得到研究问题的方法,就不赘述了。

与以往的课程一样,这一周的课后作业中有彩蛋。这次的彩蛋是:如何使用频率义的方法来证明H0确实是真的。这个问题与NHST这个方法非常有关!

由于NHST是假定H0为真,所以即便我们的数据无法拒绝H0,我们也不能说H0就是真的,因为这是NHST的假设。要证实H0确实为真,一个办法是使用Bayesian的Bayesian Factor。对Bayesian Factor的简单理解就是:当数据支持H1和H0的概率的比值(P(H1)/P(H0))。

使用频率主义的方法,也有一个办法,只是更加复杂一些,叫做:Equivalence Testing。大致的意思就是说,你现在的这个效应量与0没有差异,或者说你的这个效应太小了,没有意义。一个简单的Equivalence Test就是two-one-sided t-tests’ (TOST),也就是说,将你实验的效应与一个事先设定的小效应或者零效应的范围进行比较,如果你的效应的置信区间的高的一端小于这个范围的上限,小的一端大于这个范围的下限,说明你的效应与这个事先设定的小效应或者零效应是等同的。

Improving your statistical inferences第六周:科学哲学与理论

上图就是对TOST的一个图示。进行一次TOST的检验有四种可能:

1.你的效应是显著的,但是与这个事先设定的范围等同(太小而没有意义);

2. 你的效应是显著的,且大于这个事先设定的范围(有意义);

3. 不显著且不等同于事先设定的范围(很尴尬了,无法解释,可能说明实验的power过低)

4. 不显著且等同于事先设定的范围。

如何进行TOST检验? Daniel也提供一个Excel表格用来做这个工作,可以从这里下载: https:// osf.io/aa49c/

除了TOST以外,Daniel也提供了R的代码进行Bayesian Factor的分析,有兴趣可以加入课程去下载。

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址