0%

差异分析

images

  • 组间差异检验: 组间差异分析以及显著性检验。运用统计学上的假设检验 方法,检验组间是否有差异及其差异程度。

  • 差异检验假设: 组间没有差异,变量之间没有关系(即原假设H0)。

  • 假设检验: 先对总体参数提出某种假设,然后利用样本信息判断假设是否成立。(无假设,不检验)

  • 方差分析 :研究不同水平下是否有差异化的假设检验问题。

  • 总体: 包含所研究的全部个体(数据)的集合。

  • 样本: 从总体中抽取的一部分元素的集合。

  • 参数: 用来描述总体特征的概括性数字度量。

  • 统计量: 用来描述样本的概括性数字度量。

  • 统计推断: 研究如何利用样本数据来推断总体特征的统计方法,该方法包括参数估计假设检验两大类。

  • 参数估计: 用样本统计量和总体分布去估计总体的参数,它的方法有点估计区间估计两种。例如用样本均值对总体均值进行点估计,利用样本均值的分布对总体均值进行区间估计。

  • 点估计: 以样本统计量直接作为相应总体参数的估计值。但是没法给出估计的可靠性,也没法说出点估计值与总体参数真实值接近的程度。

  • 区间估计: 在点估计的基础上给出总体参数估计的一个估计区间,该区间是由样本统计量加减允许误差(极限误差)得到的。在区间估计中,由样本统计量构造出的总体参数在一定置信水平下的估计区间称为置信区间。

  • 参数检验: 参数估计对总体未知参数的假设后进行检验的方法。是针对参数估计做的假设。需要用到总体的分布、参数特征等信息。只能用于等距数据和比例数据。包括【秩和检验】

  • 非参数估计: 不依赖总体分布的具体形式,也不对参数进行估计或检验的统计方法。

  • 非参数检验: 非参估计假设后检验的检验方法。它不需要利用总体的信息,需要以样本信息对总体分布情况做的假设。主要用于记数数据,也可用于等距和比例数据,但精确性就会降低。

  • 参数检验与非参数检验选择: 一般不直接用样本观察值作分析,统计量的计算基于原始数据在整个样本中的秩次,丢弃了观察值的具体数值。因此凡适合参数检验的资料,应首选参数检验。但是不清楚是否合适参数检验的资料,则应采用非参数检验。

数据分布

离开分布,假设检验无从谈起;离开假设检验,差异分析毫无根基。

了解研究对象处于什么状态,是一件非常重要的事情。三大抽样分布(t-分布、x2x^2分布、F-分布)和正态分布共同构成了现代数理统计的基础。其中,正态分布和t-分布是关于均值的分布;x2x^2分布、F-分布是关于方差的分布。

x2x^2分布(卡方分布)

设X1,X2,…,Xn相互独立,都服从标准正态分布N(0,1),则称随机变量X2=X12+X22+...+Xn2X^2=X_1^2+X_2^2+...+X_n^2所服从的分布为自由度为n的X2X^2分布。

卡方分布

t-分布

在概率论和统计学中,t-分布用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。 t分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。

X1X_1服从标准正态分布N(0,1),X2X_2服从自由度为n的x2x^2分布,且X1X2X_1、X_2相互独立,那么变量Z=X1X2/nZ=\frac{X_1}{\sqrt{X_2/n}}所服从的分布为自由度为n的t-分布。分布密度函数:

fZ(x)=Gam(n+12)nπGam(n2)(1+x2n)n+12f_{Z}(x)=\frac{\operatorname{Gam}\left(\frac{n+1}{2}\right)}{\sqrt{n \pi} \operatorname{Gam}\left(\frac{n}{2}\right)}\left(1+\frac{x^{2}}{n}\right)^{-\frac{n+1}{2}}

其中,Gam(x)为伽马函数。通常写作Γ(x)\Gamma(x)

t-分布

F分布

X1X_1服从自由度为m的x2x^2分布,X2X_2服从自由度为n的x2x^2分布,且X1X2X_1、X_2相互独立,则称变量F=(X1/mX2/n)F=(\frac{X_1/m}{X_2/n})所服从的分布为F分布,其中第一自由度为m,第二自由度为n。

F分布

不管是参数检验还是非参数检验,都要基于特定的分布来做假设检验。当总体分布已知时,例如总体服从正态分布,我们可以根据给定的显著性水平(通常为0.01 或0.05)查表获得临界值。当总体分布未知时,可以先用Permutation test 构造经验分布,再根据显著性水平获得临界值。

传统的统计量检验的方法是在检验之前确定显著性水平α\alpha,也就意味着事先确定了临界值和拒绝域。这样,不论检验统计量的值是大还是小,只要它的值落入拒绝域就拒绝原假设,否则就不拒绝原假设。这种给定显著性水平的方法,无法给出观测数据与原假设之间不一致程度的精确度量。要测量出样本观测数据与原假设中假设值的偏离程度,则需要计算pvalue值。pvalue 值,也称为观测到的显著性水平,它表示为如果原假设H0H_0正确时得到实际观测样本结果的概率。pvalue 值越小,说明实际观测到的数据与H0H_0之间的不一致的程度就越大,检验的结果就越显著。

变量较多,判断组间差异时需要多重检验的情况在宏基因组扩增子差异分析中十分常见。这种情况下,基于单次比较的检验标准将变得过于宽松,使得阳性结果中的错误率(FDR 值FalseDiscovery Rate)非常大。最好的办法就提高判断的标准(p value),单次判断的犯错概率就会下降,总体犯错的概率也将下降。在多重检验中提高判断标准的方法,我们就称之为多重检验校正。从1979 年以来,统计学家提出了多种多重检验校正的方法。

观察差异

为了方便观察差异,出现了一系列的统计图。

比如箱线图、散点图、热图、树状图等。

-------------本文结束感谢您的阅读-------------

欢迎关注我的其它发布渠道