強化学習の概要

強化学習では、「エージェント」がある「環境」の中で「行動」し、その行動から得られる「報酬」が最大化するような「推論モデル」を作成します。
推論モデルがあれば学習した状態で「環境」の中を「行動」することができます。

強化学習のサイクルを簡単にまとめると下記のようになります。

  1. エージェントが環境に対して行動を起こします。
  2. 環境が状態の更新と行動の評価を行います。
  3. 状態と報酬をエージェントに知らせます。

強化学習のポイントとなる用語を下記にまとめます。

用語 説明
エージェント - Agent 環境のなかでいろいろと行動し学習を行います。さまざまな試行を行い状態ごとに行動を最適化していきます。
環境 - Environment 行動に対して、状態の更新と行動の評価を行います。
行動 - Action エージェントがいろいろな状態で起こすことができる行動です。
状態 - State 環境の状態です。行動によって変化します。
報酬 - Reward 行動すると得られる報酬です。いい結果のときは正の報酬が得られ、悪い結果のときには負の報酬となります。