逆強化学習

逆強化学習では報酬関数を推定します。そのメリットは次の通りです。

  • 人が報酬を設定する必要がない。
  • 他タスクでの利用が可能になる。
  • 人間や動物の行動理解に利用できる。

逆強化学習の手順は以下のようになります。

  1. エキスパートの行動を評価する。(戦略、状態遷移等)
  2. 報酬関数の初期化を行う。
  3. 報酬関数を利用し戦略を学習する。
  4. 学習した戦略の評価が、エキスパートの評価結果(手順1)と近くなるよう報酬関数を更新する。
  5. 手順3に戻り処理を繰り返す。

逆強化学習のデメリットとしては学習に時間がかかるということです。
通常の強化学習手順である手順3だけでも時間がかかるところを、逆強化学習ではその手順3を繰り返し行う必要があるためです。