假设你养了一只未经训练的,每当狗弄乱客厅时,你都会减少给它的食物当作惩罚,每当它表现良好时,你就将美味的小吃加倍当作奖励。于是,狗最终将学到弄乱客厅是不好的。
这个概念看似简单却很强大。狗是代理商,客厅是环境,你是奖励信号(美味小吃)的来源。你正在向狗提供反馈,但是这种反馈含糊其词,没有上下文就没有任何意义。最终,狗的神经网络找出了美味小吃和良好行为之间的关系。因此,狗为了最大化吃更多可口小吃的目标,它只会表现得很好,绝不会再弄乱客厅。
你可以将RL应用于与计算机无关的问题,例如上面“狗弄乱客厅”的示例。每个生物实体都有内置的强化学习(RL),不只人类,猫,还有更多场景使用它。这就是为什么RL如果得到解决了,将成为人工智能(AI)应用领域的一个非常强大的工具,比如自动驾驶汽车。
因此,在RL中,我们想模仿生物实体的行为,机器人作为代理,而它的目标是找到从房屋中的一个位置移动到另一位置而不会遇到障碍的最佳方法。因此,我们必须定义一个分数,碰到障碍物会获得负面分数(惩罚),避开障碍物会获得正面分数(奖励),并且它覆盖的距离越远,奖励就越多。因此,反馈可以来自多个来源。目标是在每种情况下最大化总的感知分数。
代理可以始终对环境采取行动,但是它需要找到对环境采取行动的最佳组合,以最大程度地提高回报,这就是RL对自适应系统非常重要的原因。例如在AlphaGo中,在一个监督学习阶段之后,AlphaGo和它之前的自己比赛,使用RL来进一步提高自己。
机器人控制系统可以使用RL学习如何移动机器人手臂来拾取例如物体。它们可以学习前面提到的使用RL避免对象的环境,在环境中移动,可以通过这种方式学习多种控制任务,例如平衡。
RL在游戏代理中也很有用。给定控件,游戏环境和得分,目标是最大化得分,而RL可以帮助代理找出哪种行动模式可以带来最佳得分。它可能不是最好的解决方案,但可能已经足够好,并且随着迭代次数的增加,几乎总是可以变得更好。
RL有很多应用,由于深度学习(DL)正变得越来越主流,现在有大量关于深度RL的研究,如DeepMind培训各种游戏代理,以获得人工通用智能(AGI)。
因此,RL可以定义模糊的目标,并让代理通过观察环境并在环境中采取行动获取反馈,从而自行学习。这是通向AGI的途径,但是众所周知,目前很难训练这些系统。