之前的文章我们了解了什么是监督学习,什么是非监督学习,此篇文章将会针对监督学习中的回归与分类问题进行简单介绍。
举个监督学习的例子:房价预测,我现在有一堆房价的数据,把这些数据画出来,看起来如下图这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价。
那基于这组数据,假如你有一个朋友,他有一套750平方英尺房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。那么关于这个问题,机器学习算法将会怎么帮助你呢?
我们设计一个算法,给学习算法一个数据集。这个数据集由“正确答案”组成。如上房价的例子,我们给出一系列房子的数据,对应每个房子,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案,比如你朋友那个新房子的价格。用术语来讲,这叫做回归问题。根据不同的特征,如房子大小,我们试着推测出一个连续值的结果,即房子的价格。回归这个词的意思是,我们在试着推测出这一系列连续值属性。
我们再举另外一个监督学习的例子。假设说你想通过查看病历来推测乳腺癌良性与否,假如有人检测出乳腺肿瘤,恶性肿瘤有害并且十分危险,而良性的肿瘤危害就没那么大。
让我们来看一组数据:这个数据集中,横轴表示肿瘤的大小,纵轴上,我标出1和0表示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性则记为1,不是恶性,或者说良性记为0,如下图。
我有 5 个良性肿瘤样本,在1的位置有5个恶性肿瘤样本。现在有一个朋友很不幸检查出乳腺肿瘤。假设说她的肿瘤大概这么大,那么机器学习的问题就在于,你能否估算出肿瘤是恶性的或是良性的概率。用术语来讲,这就是一个分类问题。分类指的是,我们试着推测出离散的输出值:0或1良性或恶性。而事实上在分类问题中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预测离散输出 0、1、2、 3。0 代表良性,1表示第1类乳腺癌,2表示第2类癌症,3表示第3类,但这也是分类问题。
以上简单介绍了监督学习中的回归与分类问题,通过已知数据,便可对未知数据进行预测,他们在机器学习中的应用非常广泛,通过这篇文章的简单介绍,希望大家对监督学习有更具体的了解。
参考资料:
吴恩达机器学习系列课程