【机器学习笔记】1. 什么是机器学习

机器学习系列-第 1 篇


作者注:机器学习系列是本人在学习机器学习相关内容时产生的笔记,希望也能对您有所帮助。值得注意的是,作者作为初学者,表述难免有误或不全面,望多批评指正。
如有任何问题,欢迎您随时与我联系:Hauyu.Chen@Gmail.com

版权声明:本文由 Hov 所有,发布于 http://chenhy.com ,转载请注明出处。



0 前言

AI 时代,作为计算机专业的学生,不了解点 AI 相关的知识似乎有点说不过去,尤其是机器学习。
我们一直在说机器学习,但是我们怎么理解机器学习?机器学习解决了什么问题?我们如何将机器学习应用到现实生活中的问题呢?
本文是机器学习系列的开篇,给出了机器学习的经典定义,并介绍监督学习和无监督学习这两个重要的分支,后续将逐步深入。


1 机器学习的定义

Tom Mitchell 给出了一个关于机器学习的定义,这也是一个被经常引用的定义。

Tom Mitchell:“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.”

这段话翻译过来就是:对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习。

举个栗子:AlphaGo下棋

  • 经验 E = AlphaGo从很多盘棋局获得的经验(学棋);
  • 任务 T = AlphaGo和对手下棋(下棋);
  • 性能 P = AlphaGo赢的可能性(赢棋)。


2 机器学习的分类

2.1 监督学习

通过给定一个训练集,其中包括输入和预期输出两个内容。监督学习需要人工干预,通过训练集告知学习算法什么样的输入对应什么样的结果。监督学习的核心在于找出输入和输出之间的关系,从而实现对新的输入进行结果的预测。

监督学习可分为回归(Regression)和分类(Classification)两个子问题。

  • 回归(Regression):拟合出(x,y)之间对应的连续函数,实现对结果的预测。

  • 分类(Classification):与回归问题去预测一个具体的输出不同,分类问题将输入映射到不同的分类中去。

举个栗子来解释回归和分类:
栗子1:
(1)预测房价,因为房价是关于特征x(如面积、地段等)的连续函数f(x),所以这是一个回归问题。
(2)如果我们想要预测的不是房价具体的数值,而是房价是否高于某个数值。这就是分类问题,因为它把问题分成“高于”和“不高于”两类。

栗子2:
(1)根据某个人的照片预测其年龄,这是一个回归问题。
(2)根据肿瘤的大小预测其是恶性还是良性,这是一个分类问题。

2.2 无监督学习

无监督学习不需要我们知道输入数据的预期结果,而是让计算机自己去学习。
栗子:
给出一百万个不同的基因,根据不同特征把这些基因分成不同的相似组,如位置、作用等特征。我们并没有告诉程序哪些基因在同一相似组,而是让程序根据基因的特征去自动将它们归类。


3 总结

  • 机器学习是程序通过以往数据实现自我改进,从而发挥更好的性能方法。
  • 机器学习可分为监督学习和无监督学习两个重要的分支。
  • 监督学习必须有训练集(注意与训练数据区别开来),通过训练集找出输入和输出间的规律,从而对不同的测试样本进行预测。
  • 无监督学习没有训练集,通过训练数据,由计算机自己寻找规律(不一定是分类,可以使数据集的某些特性)。


 
comments powered by Disqus