泊松分布的本质
泊松分布是特别重要的一种概率分布,它的概率密度函数是 \(P(X=k)=\frac{\lambda ^ k}{k!} e^{-\lambda}\) 这个密度函数还是有点复杂的,当然比不上更广泛的正态分布密度函数。但是泊松分布为什么在生活中会是广泛的呢?因为它来自于二项分布。
二项分布是通过排他律来总结试验事件的,也就是对应于算法分析中的判定类问题:事件要么发生,要么没发生。这在生活中很广泛,所以生活中很多事情符合泊松分布。
下面就说一下二项分布和泊松分布的关系。
现在夏天来了,比如某个小卖铺统计了他家店每天卖出去的冰淇淋数量,得到了如下数据:
天 | 销售量 |
---|---|
1 | 33 |
2 | 77 |
3 | 46 |
4 | 61 |
5 | 56 |
它的均值是 \(\bar{X} = \frac{33+77+46+61+56}{5} = 54\) 低于三天的销量。可见直接使用均值估计库存量可能引起“饥饿营销”。
为了更精确的对销售情况进行估计,老板将每天白天按小时进行区分(比如经营时间是早6点到晚10点共16个小时,平均每小时3个多)。然后老板考察了每小时的销售情况,如果有销售就分配3个冰淇淋,如果没有就放弃。比如第3天的销售分布是有11个小时进行了销售,它的概率是:
\[\begin{pmatrix} 16\\ 11 \end{pmatrix}p^{11}(1-p)^5\]因为按小时分,一个小时还是时间挺长的,算出来也不那么精准(按一个小时3个多,可能有的小时这3个是一起卖掉的,有的是平均售出的),我们可以使用分钟来区分。进一步,我们可以无限区分时段:
\[\lim_{n \to \infty } \begin{pmatrix} n\\ 11 \end{pmatrix}p^{11}(1-p)^{n-11}\]实际上这个11已经不准了,因为它计算的是小时数量。无限区分后假设发生销售的事件次数是 \(k\) 则一天卖出k个冰激凌的概率是
\[\lim_{n \to \infty } \begin{pmatrix} n\\ k \end{pmatrix}p^{k}(1-p)^{n-k}\]那么,这个p怎么算呢?
假设我们前面使用的均值就是它的期望,这里用 \(\lambda\) 表示,由于是二项分布,所以 \(E(x)=np = \lambda\) 所以 \(p=\frac{\lambda}{n}\) 代回极限式,得
\[\lim_{n \to \infty } \begin{pmatrix} n\\ k \end{pmatrix}p^{k}(1-p)^{n-k} = \lim_{n \to \infty } \begin{pmatrix} n\\ k \end{pmatrix}({\frac{\lambda}{n}})^{k}(1-\frac{\lambda}{n})^{n-k} \\ = \lim_{n \to \infty }\frac{n(n-1)(n-2)\cdots (n-k+1)}{k!}({\frac{\lambda}{n}})^{k}(1-\frac{\lambda}{n})^{n-k}\\ =\lim_{n \to \infty }\frac{\lambda^k}{k!} (\frac{n}{n}\frac{n-1}{n}\frac{n-2}{n}\cdots \frac{n-k+1}{n})(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k}\]其中:
\[\lim_{n \to \infty }(\frac{n}{n}\frac{n-1}{n}\frac{n-2}{n}\cdots \frac{n-k+1}{n})(1-\frac{\lambda}{n})^{-k} = 1\] \[\lim_{n \to \infty }(1-\frac{\lambda}{n})^n=e^{-\lambda}\]所以结果就是
\[\frac{\lambda ^ k}{k!} e^{-\lambda}\]同时也看到, \(\lambda\) 就是泊松分布的期望。
