Stable Baselines Zoo - 学習アルゴリズムACKTRでマウンテンカー(MountainCar-v0)を攻略

インベーダーゲームで一番成績の良かった学習アルゴリズム ACKTR をいろいろな環境で実行してみます。

今回は マウンテンカー(MountainCar-v0) を攻略します。車を前後に移動させて山の上のゴールを環境です。

車は速度が0、位置は-0.6~-0.4のランダム位置で開始します。ステップ毎に報酬は-1が与えられます。

右の山の上(位置0.5)に到達するとゴールで、エピソード完了になります。200ステップに達した時もタイムオーバーでエピソード完了となります。

MountainCar-v0を攻略

ACKTR の学習済みモデル(Stable Baselines Zoo提供)を使ってMountainCar-v0を実行し、その様子を動画ファイルに出力します。


各オプションは以下の通りです。

  • 環境(env)
    MountainCar-v0
  • 学習アルゴリズム(algo)
    ACKTR
  • ステップ数(n)
    3000

[コマンド]

1
python3.7 -m utils.record_video --algo acktr --env MountainCar-v0 -n 3000

実行結果は以下のようになりました。(Ubuntu 19.10で動作確認しています。)


実行結果


前後に車を移動させて勢いをつけて、山の上のゴールに達している様子が確認できます。学習アルゴリズム ACKTR であれば余裕で攻略できるといった感じです。