0%

几种主要的数据分布介绍

内容范围:正态分布,泊松分布,多项分布,二项分布,伯努利分布

**简述:**正态分布是上述分布趋于极限的分布,属于连续分布。其它属于离散分布。

伯努利分布(两点分布/0-1分布):伯努利试验指的是只有两种可能结果的单次随机试验。如果对伯努利试验独立重复n次则为n重伯努利试验。

伯努利分布函数为:

f(xp)={pxq1x,x=0,10,x0,1f(x | p)=\left\{\begin{array}{ll}{p^{x} q^{1-x},} & {x=0,1} \\ {0,} & {x \neq 0,1}\end{array}\right.

**二项分布:**二项分布是n重伯努利试验成功系数的离散概率分布。硬币正面朝上的概率为p,重复抛n次硬币,k次为正面的概率即为一个二项分布概率。

二项分布概率分布函数:

p(x)=Cnxpxqnx(x=0,1,2,3,n)p(x)=C_{n}^{x} p^{x} q^{n-x}(x=0,1,2,3, n)其中n是试验次数,x是试验结果为正的次数,q是试验结果为正的概率,1-q是试验结果为负的概率。均值:μ=np\mu=n p;方差:σ2=npq\sigma^{2}=n p q;标准差:σ=npq\sigma=\sqrt{n p q}

**多项分布:**多项分布是二项分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多k个,且k个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。多项分布的联合概率函数为:

P(X1=x1,X2=x2,,Xk=xk)=n!x1!x2!xk!p1x1p2x2pkxkP\left(X_{1}=x_{1}, X_{2}=x_{2}, \ldots, X_{k}=x_{k}\right)=\frac{n !}{x_{1} ! x_{2} ! \cdots x_{k} !} p_{1}^{x_{1}} p_{2}^{x_{2}} \cdots p_{k}^{x_{k}}

多项分布对其每一个结果都有均值和方差,分别为:E(xi)=npi,Var(xi)=npi(1pi)E\left(x_{i}\right)=n p_{i}, \operatorname{Var}\left(x_{i}\right)=n p_{i}\left(1-p_{i}\right)

**泊松分布:适合用来描述单位时间/**空间内随机事件发生的个数与其对应的概率。比如某医院平均每小时出生3个婴儿,在这种只知道平均数的情况下预测下一个小时会出生几个和其概率是多少。

泊松分布概率分布函数:P(N(t)=n)=(λt)neλtn!P(N(t)=n)=\frac{(\lambda t)^{n} e^{-\lambda t}}{n !},其中P表示概率,N表示一种函数关系,λ\lambda在这里表示是时间频率,t 在这里表示时间,n 表示数量,P(N(1) = 3) 表示的是1个小时内出生3个婴儿的概率。接下来两个小时,一个婴儿都不出生的概率为

P(N(2)=0)=(3×2)0e3×20!0.0025P(N(2)=0)=\frac{(3 \times 2)^{0} e^{-3 \times 2}}{0 !} \approx 0.0025

可以看出该事件的发生可能性十分小。

均值:μ=λ\mu=\lambda;方差:σ2=λ\sigma^{2}=\lambda

**指数分布:**可以从泊松分布推断出来。如果t时间内没有任何婴儿出生,则:

P(X>t)=P(N(t)=0)=(λt)0eλt0!=eλt\begin{aligned} P(X>t) &=P(N(t)=0)=\frac{(\lambda t)^{0} e^{-\lambda t}}{0 !} =e^{-\lambda t} \end{aligned}

,事件在t之内发生的概率为1减上述的值,为:

P(Xt)=1P(X>t)=1eλtP(X \leq t)=1-P(X>t)=1-e^{-\lambda t}

例如,接下来15分钟,会有婴儿出生的概率是52.76%。

P(X0.25)=1e3×0.250.5276\begin{aligned} P(X \leq 0.25) &=1-e^{-3 \times 0.25} \approx 0.5276 \end{aligned}

**正态分布:**概率密度函数为:f(x)=12πσexp((xμ)22σ2)f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)

μ=0,σ=1\mu=0, \sigma=1时称为标准正态分布,此时函数为:f(x)=12πe(x22)f(x)=\frac{1}{\sqrt{2 \pi}} e^{\left(-\frac{x^{2}}{2}\right)}

如何评判正态分布:

1. 图形感受法:建立直方图或者枝干图,看图像的形状是否类似正态曲线,既土墩形或者钟形,并且两端对称。

**2.**计算区间x±s,x±2s,x±3s\overline{x} \pm s, \overline{x} \pm 2 s, \overline{x} \pm 3 s,看落在区间的百分百是否近似于68%,95%,100%。

**3.**求IQR和标准差s,计算IQR/s,如若是正态分布,则IQR/s≈1.3。

4. 建立正态概率图,如果近似正态分布,点会落在一条直线上。

-------------本文结束感谢您的阅读-------------

欢迎关注我的其它发布渠道