泊松分布的本质

发表于2020-06-05,长度1785, 155个单词, 5分钟读完
Flag Counter

泊松分布是特别重要的一种概率分布,它的概率密度函数是 \(P(X=k)=\frac{\lambda ^ k}{k!} e^{-\lambda}\) 这个密度函数还是有点复杂的,当然比不上更广泛的正态分布密度函数。但是泊松分布为什么在生活中会是广泛的呢?因为它来自于二项分布。

二项分布是通过排他律来总结试验事件的,也就是对应于算法分析中的判定类问题:事件要么发生,要么没发生。这在生活中很广泛,所以生活中很多事情符合泊松分布。

下面就说一下二项分布和泊松分布的关系。

现在夏天来了,比如某个小卖铺统计了他家店每天卖出去的冰淇淋数量,得到了如下数据:

销售量
1 33
2 77
3 46
4 61
5 56

它的均值是 \(\bar{X} = \frac{33+77+46+61+56}{5} = 54\) 低于三天的销量。可见直接使用均值估计库存量可能引起“饥饿营销”。

为了更精确的对销售情况进行估计,老板将每天白天按小时进行区分(比如经营时间是早6点到晚10点共16个小时,平均每小时3个多)。然后老板考察了每小时的销售情况,如果有销售就分配3个冰淇淋,如果没有就放弃。比如第3天的销售分布是有11个小时进行了销售,它的概率是:

\[\begin{pmatrix} 16\\ 11 \end{pmatrix}p^{11}(1-p)^5\]

因为按小时分,一个小时还是时间挺长的,算出来也不那么精准(按一个小时3个多,可能有的小时这3个是一起卖掉的,有的是平均售出的),我们可以使用分钟来区分。进一步,我们可以无限区分时段:

\[\lim_{n \to \infty } \begin{pmatrix} n\\ 11 \end{pmatrix}p^{11}(1-p)^{n-11}\]

实际上这个11已经不准了,因为它计算的是小时数量。无限区分后假设发生销售的事件次数是 \(k\) 则一天卖出k个冰激凌的概率是

\[\lim_{n \to \infty } \begin{pmatrix} n\\ k \end{pmatrix}p^{k}(1-p)^{n-k}\]

那么,这个p怎么算呢?

假设我们前面使用的均值就是它的期望,这里用 \(\lambda\) 表示,由于是二项分布,所以 \(E(x)=np = \lambda\) 所以 \(p=\frac{\lambda}{n}\) 代回极限式,得

\[\lim_{n \to \infty } \begin{pmatrix} n\\ k \end{pmatrix}p^{k}(1-p)^{n-k} = \lim_{n \to \infty } \begin{pmatrix} n\\ k \end{pmatrix}({\frac{\lambda}{n}})^{k}(1-\frac{\lambda}{n})^{n-k} \\ = \lim_{n \to \infty }\frac{n(n-1)(n-2)\cdots (n-k+1)}{k!}({\frac{\lambda}{n}})^{k}(1-\frac{\lambda}{n})^{n-k}\\ =\lim_{n \to \infty }\frac{\lambda^k}{k!} (\frac{n}{n}\frac{n-1}{n}\frac{n-2}{n}\cdots \frac{n-k+1}{n})(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k}\]

其中:

\[\lim_{n \to \infty }(\frac{n}{n}\frac{n-1}{n}\frac{n-2}{n}\cdots \frac{n-k+1}{n})(1-\frac{\lambda}{n})^{-k} = 1\] \[\lim_{n \to \infty }(1-\frac{\lambda}{n})^n=e^{-\lambda}\]

所以结果就是

\[\frac{\lambda ^ k}{k!} e^{-\lambda}\]

同时也看到, \(\lambda\) 就是泊松分布的期望。

Written on June 5, 2020
分类: dev, 标签: math
如果你喜欢,请赞赏! davelet