关于p_value以及H0和H1的生物信息故事

赵本山：那老太太长得比你还难看呢！

2000年春晚小品《钟点工》中赵本山的这句台词实际上就是抽样检测 \(p_{value}\) 的原理的完整诠释。若比一件事还不靠谱的事已经不多了，那么这件事就很不靠谱。衡量不靠谱的程度就是 \(p_{value}\) 。看关于该值的更直白的定义请猛戳这个链接。

在生物信息中用到的抽样检测方式似乎与传统的不太一样。首先就是 \(H_0\) 的设置，在多篇文献中提及 \(p_{value}\) 时候仅仅给出了一个数值（如 \(p_{value}< 10^{-6}\)），而并不给出所做的假设 \(H_0\) 和 \(H_1\) 具体是什么。发生比当前抽样还不靠谱的事的概率越少，当前抽样越不靠谱，原假设越不可信。备择假设里面记载的故事似乎是玩生物信息的爷们比较希望发生的故事。

举一个双侧抽样检测的例子，如上一篇博客所举例，老板检测工人所说的次品率。这是一个明显的二项式分布抽样检测。若抽样20个得到2个次品，那么，在分布曲线上找比这个抽样还不靠谱的事，如下图所示，

比抽中2个次品更不靠谱的事分别有抽中次品数0、1、6、7、…20。把发生这些不靠谱的事的概率加起来，看看总和是不是很小，若很小，就说明该事不靠谱。

以上就是传统的 \(p_{value}\) 计算方法，这种方法对于没有计算机的时代，即需要计算乘法，更需要计算出分布，然后判断当前位置位于最大值的哪一侧。对于标准正态分布来说很容易找到双侧位置，但对于\(\chi ^2\)、二项式双侧检验，需要计算出整个分布曲线，然后判断当前样品的在上图中的x轴位置是在最大值的哪一侧之类，异常麻烦。这就是万恶之源。就因为这个，在概率教材上才会出现查统计量显著性表这种情况。这种过时的方法一度让我们突然面对\(p_{value}\)时，有点不知所措。现在计算机程序计算这个\(p_{value}\) 只需要在全体分布上来个累加或积分，里面嵌入一条if语句：如果当前值小于样本统计量的概率，进行累加，否则继续。