0
不!我发现将强化学习与监督学习和无监督学习进行比较是有益的,以便充分理解强化学习问题。但是,我不认为强化学习是监督学习和无监督学习的结合。 强化学习与无监督学习在目标方面有所不同。
无监督学习的目的是发现数据点之间的异同。但是,在强化学习问题中,目标是在可能的情况下针对每个特定情况找到良好的行为,行动或标签,以最大程度地提高代理所获得的长期利益。
为了比较强化学习和监督学习,让我们考虑一个学习下棋的代理。
在监督的环境中,设计人员必须在某种情况下提供正确的标签。想象一下,在许多情况下,将正确的动作“给予”代理是多么困难的事。
实际上,作为新手,我无法在许多情况下提供最佳动作。
然而,在强化学习问题中,仅期望设计者提供奖励信号。在国际象棋的情况下,这确实是微不足道的:+1代表赢得比赛,-1代表输掉比赛,否则为0。
然后,代理的工作是将信用分配给导致代理赢得比赛或破坏它的行动!
总而言之,我将无监督学习视为解决完全不同目标的一种技术,并且我将强化学习视为比有监督学习更普遍的问题。不用说,这三个方式都很棒并且很有用。
收藏