经过之前文章的介绍,相信大家对机器学习都有了基本的认识,简单来说就是让机器模仿人的学习能力,通过大量数据,挖掘出潜在的规律,在下次遇到相似的数据时可以进行分析判断。其中机器学习又可分为:监督学习、非(无)监督学习、半监督学习等。此篇文章主要讨论下监督学习与非监督学习的定义与区别。
既然机器学习是让机器模仿人的学习能力,那么监督学习与非监督学习便可理解为其学习的方式问题。
在解释什么是监督学习与非监督学习之前,我们回顾下机器学习的输入中的三个概念:特征向量、标签、数据集。特征向量是特征的集合,这些特征则描述了一个特定的研究对象;标签所表示的是特征向量所属的类别;数据集则是特征向量和标签的集合。举个例子,我们做一个错题本,想把做错的题都归类放置,首先我们需要判断这道题的题干和设问信息,如题目条件,数字单位等,然后得出这道题是平面几何题目还是立体几何题目,记录在错题本的相应位置。若将例子中这一道道错题的题干信息称之为特征,其集合即为特征向量,我们对题目的分类结果就是该特征向量的标签,这本错题本,就可看做一个错题的数据集。
接下来便可比较容易理解监督学习与非监督学习的定义了。
监督学习:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。
无监督学习:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。换句话说就是要在未加标签的数据中,试图找到其隐藏的结构。
由以上定义不难看出二者的主要区别,举个例子:对于平时的考试来说,监督学习相当于我们做了很多题目,并且知道它的标准答案,所以在学习的过程中,我们可以通过对照答案,来分析问题找出方法,下一次在面对没有答案的问题时,往往也可以正确地解决。 而无监督学习,是我们不知道任何的答案,也不知道自己做得对不对,但是做题的过程中,就算不知道答案,我们还是可以大致的将语文,数学,英语这些题目分开,因为这些问题内在还是具有一定的联系。
参考资料:
[2] Python猫娘. 监督学习与非监督学习[DB/OL]. https://zhuanlan.zhihu.com/p/142345604,2020-05-20
[3] 极客学院.机器学习入门.https://www.bilibili.com/video/BV1Zt411L7Dw?p=3,2019-07-24