Stable Baselines Zoo - 学習アルゴリズムA2CでBipedalWalkerHardcore-v3を攻略

BipedalWalkerHardcore-v3 を学習アルゴリズム A2C で攻略します。

BipedalWalkerHardcore-v3 は2Dの物理シミュレーション環境で、2足歩行の物体が前に進むほど高い報酬を得ることができます。

v3は落とし穴や障害物がある環境になります。

学習アルゴリズムA2CでBipedalWalkerHardcore-v3を攻略

学習アルゴリズム A2C の学習済みモデル(Stable Baselines Zoo提供)を使って BipedalWalkerHardcore-v3 を実行し、その様子を動画ファイルに出力します。


各オプションは以下の通りです。
  • 環境(env)
    BipedalWalkerHardcore-v3
  • 学習アルゴリズム(algo)
    A2C
  • ステップ数(n)
    1000

[コマンド]

1
python3.7 -m utils.record_video --algo a2c --env BipedalWalkerHardcore-v3 -n 1000

実行結果は次の通りです。(Ubuntu 19.10で動作確認しています。)


実行結果


奇妙な動きにはなっていますが、ちゃんと前に向かって進んでいる様子を確認することができます。