classfication

Classfication

LDA

Logistic Regression

Logistic function

$$ S(x) = \frac{1}{1+e^{x} }$$
如下图所示:
logistic_func
它的取值在$[0,1]$之间。
logistic regression的目标函数是:
$$h(x) = \frac{1}{1+e{-\thetaT x} 3}$$
其中$x$是输入,$\theta$是要求的参数。

思路

Logistic regression利用logistic function进行分类,给出一个输入,经过参数$\theta$的变换,输出一个$[0,1]$之间的值,如果大于$0.5$,把它分为一类,小于$0.5$,分为另一类。这个$0.5$只是一个例子,可以根据不同的需求选择不同的值。
$\theta^T x$相当于给出了一个非线性的决策边界。

Cost function

$$J(\theta) = -\log L(\theta) = -\sum_{i=1}^m (y(i)\log h(x^{(i)}) + (1-y{(i)})\log(1-h(x{(i)} )) )$$
给出两种方式推导logistic regression的cost function

Maximum likelyhood estimation

通过极大似然估计推导得到的,当是两个类别的分类时,即$0$或者$1$,有:
$$P(y=1|x,\theta) = h(x)$$
$$P(y=0|x,\theta) = 1- h(x)$$
服从二项分布,写成一个式子是:
$$P(y|x,\theta) = h(x)^y (1-h(x))^{1-y}$$
其中$y$取值只有$0$和$1$。
有了$y$的表达式,我们就可以使用最大似然估计进行求解了:
$$L(\theta) = \prod_{i=1}^m (h(x{(i)}){y(i)}(1-h(x^{(i)} )){(1-y{(i)})}$$
似然函数要求最大化,即求使得$m$个observation出现概率最大的$\theta$,
损失函数是用来衡量损失的,令损失函数取负的对数似然,然后最小化loss也就是最大化似然函数了:
$$J(\theta) = -\log L(\theta) = -\sum_{i=1}^m (y(i)\log h(x^{(i)}) + (1-y{(i)})\log(1-h(x{(i)} )) )$$

Cross-entropy

对于$k$类问题,写出交叉熵公式如下所示:
$$J(\theta) = -\frac{1}{n}\left[\sum_{i=1}^m \sum_k y_k^{(i)} \log h(x_k^{(i)} ) \right]$$
当$k=2$时:
$$J(\theta) = -\frac{1}{n}\left[\sum_{i=1}^m y^{(i)} \log h(x^{(i)} ) + (1-y^{(i)}) \log (1-h(x^{(i)} ))\right]$$

梯度下降

$$J(\theta) = -\log L(\theta) = -\sum_{i=1}^m \left[y(i)\log h(x^{(i)}) + (1-y{(i)})\log(1-h(x{(i)} )) \right]$$

\begin{align*}
\nabla J & = -\sum_{i=1}^m \left[ y(i)\frac{1}{h(x^{(i)})}\nabla h(x^{(i)}) - (1-y{(i)})\frac{1}{\log(1-h(x{(i)} ))}\nabla\log(1-h(x^{(i)} ))\right]
&=-\sum_{i=1}^m (h(x^{(i)}) - y^{(i)}) x^{(i)}
\end{align*}

参考文献

1.https://blog.csdn.net/jk123vip/article/details/80591619
2.https://zhuanlan.zhihu.com/p/28408516
3.https://www.cnblogs.com/pinard/p/6029432.html