強化学習では、「エージェント」がある「環境」の中で「行動」し、その行動から得られる「報酬」が最大化するような「推論モデル」を作成します。
推論モデルがあれば学習した状態で「環境」の中を「行動」することができます。
強化学習のサイクルを簡単にまとめると下記のようになります。
- エージェントが環境に対して行動を起こします。
- 環境が状態の更新と行動の評価を行います。
- 状態と報酬をエージェントに知らせます。
強化学習のポイントとなる用語を下記にまとめます。
用語 | 説明 |
---|---|
エージェント - Agent | 環境のなかでいろいろと行動し学習を行います。さまざまな試行を行い状態ごとに行動を最適化していきます。 |
環境 - Environment | 行動に対して、状態の更新と行動の評価を行います。 |
行動 - Action | エージェントがいろいろな状態で起こすことができる行動です。 |
状態 - State | 環境の状態です。行動によって変化します。 |
報酬 - Reward | 行動すると得られる報酬です。いい結果のときは正の報酬が得られ、悪い結果のときには負の報酬となります。 |