在概率论中,拉普拉斯接续法则(英語:rule of succession)是一个源自18世纪、由著名学者皮埃尔-西蒙·拉普拉斯在研究“日出问题”时提出的公式。[1] 时至今日,这个规则依然有其应用价值,尤其是在观测数据非常有限,甚至某些可能结果从未在(有限的)样本中出现过的情况下,它可以帮助我们估计这些结果发生的潜在概率。
假设我们正在进行一项实验,我们只知道它有两种可能结果:“成功”或“失败”。如果我们独立地重复这项实验 n 次,观察到 s 次成功和 n − s 次失败,那么,我们该如何预测下一次(第 n + 1 次)实验取得成功的概率呢?
用更抽象的数学语言来说:设 X1, ..., Xn+1 是一系列随机变量,它们代表每次实验的结果(比如 1 代表成功,0 代表失败)。已知在某个潜在成功概率 p 下,这些实验结果是相互独立的(条件独立性)。如果我们除了知道每次实验结果非0即1之外,对决定成功的潜在因素一无所知,那么接续法则给出如下预测:
这个公式表明,在观测到 n 次实验中有 s 次成功后,下一次实验成功的概率估计为。
拉普拉斯接续法则的核心思想可以这样理解:因为我们事先知道实验结果“成功”和“失败”都是有可能发生的,所以在做任何实际观测之前,就好像我们已经默认有了一次成功和一次失败的“虚拟”观测记录。这种预设的观测被称为伪计数(pseudocounts)。
因此,虽然我们实际上只做了 n 次实验,得到了 s 次成功,但接续法则的处理方式相当于我们总共考虑了 n+2 次观测(n 次实际观测 + 2 次伪计数),其中包含了 s + 1 次成功(s 次实际成功 + 1 次伪计数成功)。用这个调整后的成功次数 (s + 1) 除以调整后的总次数 (n + 2),就得到了下一次成功的概率估计。
这个“预设一次成功一次失败”的假设看起来简单且合理,并且它确实能导出正确的公式,但这并非显而易见,是需要数学证明的。将这种为每种可能性预设一个伪计数的想法推广到多于两种结果的情况,会产生一些值得注意的后果(详见下文“推广到任意数量的可能性”)。
需要对比的是,如果我们不具备“成功和失败都可能发生”这一先验知识(或者说我们采用一种表达“彻底无知”的先验假设),那么我们可能会直接使用观测到的频率来预测下一次的结果:
然而,这种基于频率的估计方法在数学上存在问题,尤其是在 (从未观测到成功)或 (从未观测到失败)的极端情况下并不适用(具体分析见“数学细节”部分)。
随着观测次数 n 的增加,拉普拉斯接续法则给出的概率 会越来越接近频率 。这符合直觉:当我们拥有大量数据时,数据本身提供的信息应该占据主导地位,而初始的先验假设(伪计数)的影响就相对减弱了。