Stable Baselines Zoo - 学習アルゴリズムA2CでBipedalWalkerHardcore-v3を攻略

June 27, 2020

BipedalWalkerHardcore-v3 を学習アルゴリズム A2C で攻略します。

BipedalWalkerHardcore-v3 は2Dの物理シミュレーション環境で、２足歩行の物体が前に進むほど高い報酬を得ることができます。

v3は落とし穴や障害物がある環境になります。

学習アルゴリズムA2CでBipedalWalkerHardcore-v3を攻略

学習アルゴリズム A2C の学習済みモデル(Stable Baselines Zoo提供)を使って BipedalWalkerHardcore-v3 を実行し、その様子を動画ファイルに出力します。

各オプションは以下の通りです。

[コマンド]

1	python3.7 -m utils.record_video --algo a2c --env BipedalWalkerHardcore-v3 -n 1000

実行結果は次の通りです。(Ubuntu 19.10で動作確認しています。)

奇妙な動きにはなっていますが、ちゃんと前に向かって進んでいる様子を確認することができます。