逆強化学習

November 6, 2019

逆強化学習では報酬関数を推定します。そのメリットは次の通りです。

逆強化学習の手順は以下のようになります。

逆強化学習のデメリットとしては学習に時間がかかるということです。
通常の強化学習手順である手順3だけでも時間がかかるところを、逆強化学習ではその手順3を繰り返し行う必要があるためです。