cps实验室
AI科普在线
AI科普在线

您当前的位置: 首页 >>AI科普在线 >>正文

走近人工智能:强化学习
2020-09-18 19:51 林松海    (点击: )


之前我们已经学习到机器学习是一个大家族,这个家族里面的成员各显神通,为我们解决人工智能领域的各种问题。今天我们需要介绍机器学习家族中的一个小团体——强化学习。既然是小团体,那就代表我们的强化学习家族成员也有很多个,例如q-learning,sarsa,等等。这里我们不展开介绍,有兴趣的同学可以自己详细了解强化学习的家族成员。

 

强化学习的原理?

强化学习是一类算法,让计算机在什么都不懂的情况下,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的方法。让我们举一个小小的例子:

你现在在家,有两个动作选择:【打游戏】和【读书】。如果你选择打游戏的话,你就会跑到【网】,如果选择了读书,就坐在了【书桌】面前。你爸妈下班回家,如果发现你在网吧,就会给你教训,如果你在书桌面前的话,就会奖励你零食吃。

首先,你并不知道应该选择哪一个动作(参考:让计算机在什么都不懂的情况下),因此你可能选择【打游戏】或者【读书】。但是,当你接受了多次教训和多次奖励零食以后,你会发现【打游戏】会得到惩罚,选择【读书】会得到奖励,因此当你再一次在家里的时候,你就会偏向于选择【读书】,而不是【打游戏】。(这就是强化学习)

 

对比监督学习

监督学习是已经给出了数据和数据对应的正确标签。以上面例子来说明,就是你的爸爸妈妈在出门时就会直接告诉你,只要你在家乖乖学习,就会获得奖励,如果打游戏,就会给你惩罚。那么你根本就不用在经历多次教训才会知道如何才能获得奖励,因为你一开始就已经很明白了。

强化学习对比监督学习,区别在只知道数据,而没有数据标签。计算机必须通过反复尝试,接受社会的毒打以后,才能明白应该做什么,不应该做什么。


总结

实际中的强化学习例子有很多,比如比较有名的Alpha go,让计算机自己学着玩经典游戏的Atari。强化学习也可以应用到智能机器人的开发中,游戏Ai,以及自动驾驶等等。更多的应用领域还等待着人们去发掘。


参考资料:

[1]莫烦.强化学习[EB/OL].https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/4-01-RL/,2016-12-31.

 

关闭窗口