贝叶斯定理与个人概率

不管个人概率的概念是如何被准确定义的,贝叶斯定理在个人概率中的应用方式,看上去与大多数的想法相吻合。贝叶斯方法一开始是假设在一个人的头脑中有一组先验概率(a prior set of probabilities),接下来这个人经过观测或实验产生了数据,然后再拿这组数据来修正先验概率(prior probability),生成一组后验概率(a posterior set of probabilities):
先验概率 → 数据 → 后验概率
假设这个人想确定是否所有的大乌鸦都是黑的。她首先存有一些关于“这个陈述是真的”概率的先验知识。例如,起初她可能对大乌鸦一无所知,对“所有大乌鸦都是黑的”这句话半信半疑,相信比例是50:50。数据则包括她对大乌鸦的观测。假如她看到了一只大乌鸦,而且这只大乌鸦是黑色的,她的后验概率就会增加。因此下一次她再观测大乌鸦时,她的新的先验概率(也就是上一次的后验概率)就会大于50%,如果她继续观测大乌鸦而且都是黑的,这个概率还会继续上升。
另一方面,一个人也有可能在进行观测之前就已经带着非常强的事前主见,其程度非常强,需要有很大量的数据才能改变这个事前主见。在20世纪80年代,美国宾夕法尼亚州的三里岛核电厂发生了近乎是灾难性的事故。反应炉的操作员面对一个很大的操作盘,通过上面的各种仪表和指示灯来了解反应炉的运转情况。这些指示灯当中有一些是警告灯,其中有的出过问题,以前曾经发出过假的警告。当时操作员有个事先的成见,当他们看见任何一个新的警告灯亮时,总是认为它是假的信号。结果,即使当警告灯的型态及相关的指示器都一致显示反应炉的水位过低时,他们仍然置之不理。他们的先验概率太强了,以至于新的数据也无法使后验概率产生多大的改变。
假定只有两种可能性,就像前面署名有争议的联邦主义论文的例子:它不是麦迪逊写的就是汉密尔顿写的。于是,在应用了贝叶斯定理之后,就会得到了一个先验胜率(prior odds)与后验胜率(posterior odds)之间的简单关系,这里的数据可以归纳成一种称为“贝叶斯因子”(Bayes factor)的东西。这是一种根本不用参考先验胜率来刻画数据的一种数学计算。有了这个计算工具,分析家就可以告诉读者,插入任何他想要的先验胜率,乘以计算出来的贝叶斯因子,再计算后验胜率。莫斯特勒与华莱士对12篇署名有争议的文章,每篇都是这样处理的。
此外,他们对文章里的那些无特定含义的字出现的频率,还进行了两种非贝叶斯分析。
这样他们有了四种方法来判断有争议文章的作者:层次贝叶斯模型,计算的贝叶斯因子,以及两个非贝叶斯分析方法。结果如何呢?所有12篇文章都压倒性地指向麦迪逊。
实际上,如果使用计算的贝叶斯因子,那么对某几篇文章来说,读者认为是汉密尔顿写的先验胜率可能要大于100000:1才有办法让后验胜率为50:50。
