【机器学习笔记】5. 逻辑回归

机器学习系列-第 5 篇


作者注:机器学习系列是本人在学习机器学习相关内容时产生的笔记,希望也能对您有所帮助。值得注意的是,作者作为初学者,表述难免有误或不全面,望多批评指正。
如有任何问题,欢迎您随时与我联系:Hauyu.Chen@Gmail.com

版权声明:本文由 Hov 所有,发布于 http://chenhy.com ,转载请注明出处。



0 前言

本文要讲的逻辑回归属于分类算法,它是对线性回归的改进。

在处理二分类问题的时候,我们可将所有预测 y 映射成某个值。假设,若该值大于等于0.5,则结果为1;若该值小于0.5,则结果为0。这样,我们就将所有样本分为两类了。

若用线性回归去处理分类问题, y 的值可能远大于1或小于0,这样会造成较大的误差,所以能否让 y 的值处于0到1之间呢?

逻辑回归实现的就是这样的功能,将预测值映射到某个固定的区间,通过决策边界,实现二分类问题。


1 要点

1.1 逻辑函数(Sigmoid函数)

逻辑回归中的逻辑函数其实就是线性回归中的假设函数,只不过在假设函数的基础上进行一个函数映射。

(1)线性回归中的假设函数

(2)逻辑回归中的逻辑函数

逻辑函数对应的图像如下:

可见,逻辑函数将所有预测映射到(0,1)区间。

1.2 Decision Boundary(决策边界)

为了对输出结果进行0和1的分类,我们假设认为 hθ(x) 大于等于0.5,则结果 y=1 ;若 hθ(x) 小于0.5,则结果 y=0 ,即:

根据逻辑函数的图像,有:

即:

所以,决策边界就是将结果分为 y=0 和 y=1 的分界,不同的参数向量 θ ,可对应不同的决策边界。

举个栗子:

这个栗子中,决策边界为 x=5 ,因为在其左边,y=1;在其右边,y=0。

当然,决策边界并非只能是直线,也可能是复杂的曲线。

1.3 Cost Function(代价函数)

上述公式可简化如下:

向量化如下:

1.4 Gradient Descent(梯度下降)


2 思路

假设,我们要实现邮件的分类(垃圾邮件、非垃圾邮件)

  1. 借助线性回归的思路,我们可以设定假设函数 hθ(x)=θ0*x0+θ1*x1+⋯+θn*xn ,但 hθ(x) 的结果可能在 (−∞,+∞) 之间。
  2. 所以,我们通过构造逻辑回归将预测值映射到(0,1)区间,预测值表示该邮件是垃圾邮件的概率。
  3. 构造代价函数。
  4. 通过梯度下降来最优化特征向量 θ ,求得决策边界。


3 结语

  1. 逻辑回归名字中虽然有回归二字,但它不是回归算法,而是分类算法,主要用于解决二分类问题。
  2. 逻辑回归比较重要的概念是将假设函数映射到一个区间内,这是和线性回归最大的不同。
  3. 在逻辑回归中,逻辑函数就是假设函数,
  4. 逻辑回归中的代价函数的定义和线性回归有所差别,其它的实现思路大体一致,即定义出假设函数、代价函数,通过代价函数来拟合假设函数,逻辑回归最后训练出决策边界,将数据一份为二。


 
comments powered by Disqus