概率
概率,反映随机事件出现的可能性(likelihood)大小。随机事件是指在相同条件下,可能出现也可能不出现的事件。
频率学派vs贝叶斯学派
频率学派和贝叶斯学派在探讨不确定性这件事的出发点不同。
频率学派认为世界是确定的,直接为事件本身建模,某件事情发生的可能性是固定的。给定频率的取值空间,频率学派相信其中只有一个值是真实的概率,而我们要做的就是找出这个值。于是就有了最大似然估计和置信区间等等,这些方法表示的有多大可能性找到这个值。
而贝叶斯学派并不是从事件本身出发的,他们认为世界是不确定的,从观察者角度出发,观察者获得的信息不同,世界是不确定的。贝叶斯学派认为频率学派中的随机事件只是观察者不知道结果,随机性指的是观察者猜测结果的可能性,是不断变化的。频率学派的概率描述的是事件本身,而贝叶斯学派的概率描述的是观测者看到新的观测之后对某个观测的猜测。
贝叶斯学派认为这个参数的取值空间中,任意一个参数都有可能是模型实用的值,只是取值概率不同而已。他们通过先验分布和后验分布这样的概念,找到参数取某个值的概率。最大后验估计就是贝叶斯学派参数估计的常用方法,写出关于$\theta$的函数,然后令偏导等于$0$即可。原来我有个问题,就是先验分布是一个分布,而为什么最大后验求出来的是一个值,这是因为这个分布也是$\theta$的函数,求导之后,解$\theta$就是一个值啊。。后验分布是一个分布,而最大后验估计求出来的是一个$\theta$的取值。
先验,后验,似然,条件概率
先验和后验
假设的概率,或者给出的概率。
比如给出一个硬币,求随机投掷一次正面向上的概率。。在不知道任何其他条件的情况下,我们假设它是公平的,这就是一个先验。然后随机投掷了十次,发现十次正面都是向上的,显然,这个硬币不是公平的,根据这个事件我们可以修改这个硬币正面向上的概率,这时候得到的概率就是后验概率。
似然
用$\theta$表示一个随机过程的参数,观测到的事件是$O$。$P(O|\theta)$是这件事发生的概率。然而,在现实生活中,我们常常是不知道$\theta$的,我们只能根据观测到的$O$,计算$P(\theta|O)$。而估计$P(\theta|O)$最常用的方法就是最大似然估计,即寻找使得当前观测$O$出现概率最大化的参数。似然的定义是给定观测$O$关于未知参数$\theta$的函数:
$$L(\theta|O) = P(O|\theta)$$
$L(\theta|O)$被称为似然,左面是似然,右面是概率密度(函数)。这两个函数从定义上来说是完全不同的对象,前者是$\theta$的函数,后者是$O$的函数,这里的等号意思是函数值相等,而不是两个函数本身就是同一个函数。
条件概率
似然就是一种条件概率。
参数估计方法
最大似然估计,贝叶斯估计和最大后验估计
最大似然估计
最大似然估计是频率学派的观点,它的基本思想是参数$\theta$是客观存在的,只是未知而已。它的目标是调整模型参数使得样本出现的概率最大化,求得的参数就是待估计参数。
用公式表示如下所示:
$$L(\theta|x) = f(x|\theta) = f(x_1, \cdots, x_n|\theta) = \prod_{i=1}^n f(x_i|\theta)$$
$$\hat{\theta}_{mle} = \arg \max_{\theta} L(\theta|x)$$
贝叶斯估计
贝叶斯估计是贝叶斯学派的观点,它的基本思想是参数$\theta$是随机的,也是个随机变量,因此只能根据样本估计参数$\theta$的分布。贝叶斯估计可以看作是,在假定$\theta$服从某个先验分布前提下,根据样本信息去校正先验分布,得到后验分布。由于后验分布是一个条件分布,通常我们取后验分布的期望作为参数的估计值。
用公式表示如下所示:
$$\pi(\theta|x) = \frac{f(x|\theta)\pi(\theta)}{m(x)} = \frac{f(x|\theta)\pi(\theta)}{\int f(x|\theta)\pi(\theta) d(\theta)} $$
$$\hat{\theta}_{be} = \mathbb{E}\left[ \pi(\theta|x)\right]$$
最大后验估计
而最大后验估计是贝叶斯估计的一种实现。最大后验估计的基本思想采样了极大似然估计的思想,最大后验估计的目标是调整模型参数使得样本出现的后验概率最大,和最大似然估计的区别是加了一个先验分布。
$$\hat{\theta}_{map} = \arg \max_{\theta} \pi(\theta|x) = \arg \max_{\theta} \frac{f(x|\theta)\pi(\theta)}{m(x)} = \arg\max_{\theta}f(x|\theta)\pi(\theta)$$
对其同取$\log$,得到:
$$\hat{\theta}_{map} = \arg\max_{\theta}f(x|\theta)\pi(\theta) =\arg\max_{\theta}(\log f(x|\theta) + \log \pi(\theta)) $$
所以MAP可以看成带有正则化项的MLE。
贝叶斯分类器(朴素贝叶斯)和参数估计(贝叶斯估计等)的关系
参数估计(贝叶斯估计等)用来求解贝叶斯分类器(朴素贝叶斯)的参数。
参考文献
1.陈希孺《概率论与统计》
2.https://www.zhihu.com/question/20587681/answer/41436978
3.https://zhuanlan.zhihu.com/p/40024110