強化学習の概要

November 4, 2019

強化学習では、「エージェント」がある「環境」の中で「行動」し、その行動から得られる「報酬」が最大化するような「推論モデル」を作成します。
推論モデルがあれば学習した状態で「環境」の中を「行動」することができます。

強化学習のサイクルを簡単にまとめると下記のようになります。

強化学習のポイントとなる用語を下記にまとめます。

用語	説明
エージェント - Agent	環境のなかでいろいろと行動し学習を行います。さまざまな試行を行い状態ごとに行動を最適化していきます。
環境 - Environment	行動に対して、状態の更新と行動の評価を行います。
行動 - Action	エージェントがいろいろな状態で起こすことができる行動です。
状態 - State	環境の状態です。行動によって変化します。
報酬 - Reward	行動すると得られる報酬です。いい結果のときは正の報酬が得られ、悪い結果のときには負の報酬となります。