distributions

常见的离散分布和连续分布

常见的离散分布有伯努利分布，二项分布，泊松分布，几何分布，多项分布。

伯努利分布

定义

伯努利实验是单次随机试验，只有成功和失败两种结果。它服从的分布叫做伯努利分布，伯努利分布也叫两点分布或者$0-1$分布。

概率密度函数

期望和方差

二项分布

定义

如果某个试验是伯努利试验，事件A在一次试验中发生的概率是$p$，现在独立的重复该试验$n$次，用$X$表示事件A在发生的次数，$X=i$的所有的可能取值为$0,1,\cdots,n$。$X$所服从的分布就叫二项分布，它的计算公式如下：
$$P(X=i|\theta)= \begin{pmatrix}n\\ i\end{pmatrix}p^i(1-p)^{n-i}$$
二项分布有两个条件，一个是独立的进行$n$次试验，相互之间互不干扰，一个是同分布，即所有试验中A发生的概率都是相等的。

概率密度函数

期望和方差

几何分布和负二项分布

定义

概率密度函数

期望和方差

多项分布

定义

如果把事件A的取值推广到多个，而不是两个，独立进行$n$次实验，求$X=i$的所有可能的取值就是一个多项分布。比如掷骰子$100$次，出现$50$次$1$，$30$次$2$和$20$次$3$的概率就是一个多项分布。
多项分布的计算公式如下：
$$P(x_1,x_2,\cdots, x_k; n, p_1,p_2, \cdots,p_k) = \frac{n!}{x_1!\cdots x_k!}p_1^{x_1}\cdots p_k^{x_k},\sum_{i=1}^{k}p_i = 1$$

概率密度函数

期望和方差

泊松分布

定义

概率密度函数

期望和方差

Gamma函数

Gamma函数的定义：
$$\Gamma(x) = \int_0^{\infty}t^{x-1}e^{-t}dt$$
通过分部积分，可以推导出来这个函数有如下的性质：
$$\Gamma(x+1) = x\Gamma(x)$$
可以证明，$\Gamma(x)$函数是阶乘在实数集合上的扩展：
$$\Gamma(n) = (n-1)!$$
只不过这里是$(n-1)!$，而不是$n!$。事实上，如果把$t^{x-1}$替换成$t^x$就能得到$\Gamma(n) = n!$，但是欧拉不知道为什么，还是使用了$t^{x-1}$。

Beta分布

定义

我们常用的贝叶斯估计，是将先验概率转化为了后验概率。。比如说抛硬币，我们通常假设硬币是公平的，也就是说正面向上的概率是$0.5$，这个先验概率就是$0.5$，然后根据观测到的事件将先验概率转化为后验概率。
这里的先验分布我们取得是一个值，如果不取一个值，而是选择一个分布呢？比如Beta分布：
$$f(\theta;\alpha, \beta) = \frac{1}{B(\alpha, \beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1},\alpha\gt 0,\beta\gt 0, x\in \left[0,1\right]$$
其中，$\frac{1}{B(\alpha, \beta)} = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}$

然后使用贝叶斯推断，得到一个后验概率分布。Beta分布有一个神奇的特点就是使用贝叶斯推断得到的后验概率也是一个Beta分布，这个特点叫做共轭分布，接下来就会介绍。

特点

Beta分布可以表示各种各种的曲线，从而也能表示各种各样的先验分布。

均值和方差

Beta分布的均值是$\frac{\alpha}{\alpha+\beta}$。

共轭先验分布

在贝叶斯概率理论中，如果后验概率和先验概率服从相同类型的分布，那么先验分布和后验分布被叫做共轭分布。同时，先验分布叫做似然函数的共轭先验分布。
Beta分布就是一个共轭分布，但是有一个前提，就是数据符合二项分布的时候，参数的先验和后验都可以是Beta分布，也称Beta分布是二项分布的共轭先验分布，似然函数是二项分布。

证明Beta分布是二项分布的共轭先验分布

已知条件：先验是Beta分布，数据服从二项分布
根据贝叶斯公式，后验概率的计算公式如下：
$$P(\theta|data) = \frac{P(data|\theta)P(\theta)}{P(data)} \propto P(data|\theta)P(\theta)$$
而$P(data|\theta)$可以根据似然函数的定义来计算$L(\theta|data) = P(data|\theta)$，又因为数据服从二项分布，有$P(data|\theta) \propto \theta^z(1-\theta)^{n-z}$，而Beta分布有$P(\theta) = Beta(\theta;\alpha,\beta) \propto \theta^{(\alpha-1)}(1-\theta)^{\beta-1}$，而$P(data)$与$\theta$无关，所以
$$P(\theta|data) \propto P(data|\theta)P(\theta) = \theta^{z+\alpha-1}(1-\theta)^{\beta+n-z-1}$$
也就是说后验分布服从Beta$(\alpha+z, \beta+n-z)$，得证。

狄利克雷分布

定义

参考文献

1.http://bloglxm.oss-cn-beijing.aliyuncs.com/lda-LDA数学八卦.pdf
2.https://zhuanlan.zhihu.com/p/49267988