Intrinsic Curiosity Module(ICM)
まだ見たことのない場面に対する好奇心を報酬として学習させる手法です。
ICMでは次の2つのモデルを同時に学習します。
- 逆モデル
2つの状態からその間に選択した行動を予測する。 - 順モデル
状態と選択した行動から次の状態を予測する。
この予測が外れるほど多くの報酬を与える。
これらによってエージェントにとって未知である行動を取るほど報酬を多く受け取ることになります。
迷路を探索してさまざまな行動をとる必要があるゲーム等に最適な学習方法です。