超几何检验的潜规则

文献中的潜规则永远是可怕地存在,不依人的意志转移。 相信也好,不相信也好,它就在哪里,不闹不吵。 关于这个超几何检验的潜规则很微妙。

hypergeome

超几何检验某情形:试图搞明白在基因集合\(\mathcal{G}\)中,哪个生物学过程(基因本体的生物学过程)高表现。 如图所示,直观地看,下述判断是对的:“如果在基因集合\(\mathcal{G}\)中(前景),对应的某个生物学过程\(bp\)的基因个数\(q\)与该基因集合中含有的基因个数\(k\)的比值大于在实际中\(bp\)对应的所有的基因的基因个数\(m\)与所有生物学过程对应的所有的基因的集合(背景)的基因个数\(m+n\)(n为其余的生物学过程对应的基因个数),那么\(bp\)就是高表现。”

\[\text{sgn}(\frac{q}{k}-\frac{m}{m+n})\]

这种直觉是错误的倾向,因为实际上可能存在这种情况:某一个基因在背景中异常的罕见,突然出现一次在前景中也可能是高表现。

关于\(p\)-value的含义和计算方法请戳前篇博客。 这里给出具体的用R做超几何检测的方法,其标准的步骤如下:

第一步,做假设

“没有了观众也就没有了表演”————山本一木

没有假设就没有检验。 在该超级检验的情形下所做的假设为:\(H_0\):\(bp\)在\(\mathcal{G}\)中的表现要弱于其在背景中的表现。

第二步,计算\(p\)-value

与上述假设对应的\(p\)-value为:

\[p\text{-value}=1-\sum\limits_{i=0}^{q}\frac{C_{m}^{i}C_{n}^{k-i}}{C_{m+n}^{k}}\]

该公式所对应的R代码很简单、很直观,如下:

phyper(q,m,n,k,lower.tail=FALSE)

现在就完成了超几何检验,但微妙之处在于:“背景是什么?”。
此处背景的解释可以有两种:

模楞两可神马的最令人讨厌、憎恨。
但搞笑的是,关于这两个解释的争议似乎最终是先有鸡还是有蛋的问题。

石见 石页 /
在共享协议(CC)下发布于
类别: technology 
标签: r  sample  test  生物信息  检验  中