BipedalWalkerHardcore-v3 を学習アルゴリズム A2C で攻略します。
BipedalWalkerHardcore-v3 は2Dの物理シミュレーション環境で、2足歩行の物体が前に進むほど高い報酬を得ることができます。
v3は落とし穴や障害物がある環境になります。
学習アルゴリズムA2CでBipedalWalkerHardcore-v3を攻略
学習アルゴリズム A2C の学習済みモデル(Stable Baselines Zoo提供)を使って BipedalWalkerHardcore-v3 を実行し、その様子を動画ファイルに出力します。
各オプションは以下の通りです。
- 環境(env)
BipedalWalkerHardcore-v3 - 学習アルゴリズム(algo)
A2C - ステップ数(n)
1000
[コマンド]
1 | python3.7 -m utils.record_video --algo a2c --env BipedalWalkerHardcore-v3 -n 1000 |
実行結果は次の通りです。(Ubuntu 19.10で動作確認しています。)
奇妙な動きにはなっていますが、ちゃんと前に向かって進んでいる様子を確認することができます。