强化学习是与有监督学习和无监督学习并列的第三种机器学习范式。
非形式化定义
形式化地定义强化学习需要一些动态系统理论中的思想.
强化学习的基本思想有三个方面:
- 具备学习的智能体必须在某种程度上感知环境的状态
- (感知环境状态后)采取动作并影响环境状态
- 智能体必须同时拥有和环境状态相关的一个或多个明确的目标
即 感知, 动作和目标, 或者用一个词概括, 就是交互.
除了智能体和环境外, 强化学习系统还有四个核心要素:
- 策略: 定义了学习智能体在特定时间的行为方式
- 收益信号: 定义了强化学习问题中的目标,
它表明了短时间内什么是好的.
- 价值函数: 表明了从长远的角度看什么是好的.
- (optional) 对环境建立的模型: 环境模型允许对外部环境的行为做推断,
因此环境模型可以用来规划.
按照是否使用环境模型分为有模型方法和无模型方法.