【机器学习笔记】4. 线性回归(多变量)

机器学习系列-第 4 篇


作者注:机器学习系列是本人在学习机器学习相关内容时产生的笔记,希望也能对您有所帮助。值得注意的是,作者作为初学者,表述难免有误或不全面,望多批评指正。
如有任何问题,欢迎您随时与我联系:Hauyu.Chen@Gmail.com

版权声明:本文由 Hov 所有,发布于 http://chenhy.com ,转载请注明出处。



0 前言

前面我们已经提到了单变量线性回归,现在讲讲多元线性回归(多变量线性回归)。

在讲解单变量线性回归时,我们引入了房价预测这个栗子,仅通过房屋面积来预测房价。事实上,影响房价的因素有很多,如面积、房间数量、楼层、房龄等等。

现在,我们想在进行房价预测时考虑面积、房间数量、楼层、房龄这几个因素,而不是单单只考虑面积。

显然,单变量线性回归已不再适用,我们可以通过多元线性回归来解决。


1 要点

1.1 多元线性回归模型

这条公式是否很熟悉呢?其实就是在单变量线性回归模型的基础上增加了其它的特征 x2、x3、x4 ··· xn。

为方便计算,我们可以定义 x0=1 ,现在可以将公式转化成如下形式:

令:
特征向量X = [x0,x1,x2, … ,xn]
参数向量θ = [θ0,θ1,θ2, … ,θn]
X 和 θ 均为 n+1 维向量,有:

最后,假设函数h可简化成以下形式:

1.2 Cost Function(代价函数)

注:多元线性回归的代价函数和单变量线性回归的一致,不过增加了一些新的参数θ3、θ4、θ5···θn。

1.3 Batch Gradient Descent(批量梯度下降)


2 思路

多元线性回归的思路和单变量线性回归大体一致,只不过我们需要对计算公式做一些微小改变。

同样,还是通过房价预测的栗子来讲解:

  1. 房价取决于多方面的因素,在这里我们考虑面积、房间数量、楼层、房龄这四个因素。所以,我们要搞清楚的就是面积 x1 、房间数量 x2 、楼层 x3 、房龄 x4 对房价 y 的影响。
  2. 所以,假设函数为 hθ(x) = θ0 + θ1*x1+ θ2*x2 + θ3*x3+ θ4*x4 。
  3. 令 x0=1 ,将假设函数转换成 hθ(x) = θ0*x0 + θ1*x1+ θ2*x2 + θ3*x3+ θ4*x4 。
  4. 令特征向量 X=[x0,x1,x2,x3,x4] ,参数向量 θ=[θ0,θ1,θ2,θ3,θ4] ,最终我们的假设函数为 hθ(x)=(θ^T)X 。
  5. 问题的核心还是找出合适的参数向量θ,使得我们的预测 hθ(x) 是合理的。
  6. 衡量参数向量 θ 是否合适的标准就是代价函数 J(0) ,θ 应使得 J(θ) 尽可能小。


3 结语

多元线性回归和单变量线性回归的区别主要体现在假设函数、代价函数的定义差别,其它思想大体一致,不同的是多元线性回归在计算的过程中加入了一些新的特征、参数。


 
comments powered by Disqus