Stable Baselines の強化学習アルゴリズムの1つである PPO2 を使ってCartPole-v1を攻略してみます。
PPO2での学習
PPO2 は、マルチプロセッシングで訓練可能な強化学習アルゴリズムです。
各処理のポイントはコメントをご参照ください。
[コード]
1 | import gym |
実行すると学習が行われた後、ゲーム画面が表示され棒のバランスがとれていることが確認できます。
[実行結果]
Stable Baselines の強化学習アルゴリズムの1つである PPO2 を使ってCartPole-v1を攻略してみます。
PPO2 は、マルチプロセッシングで訓練可能な強化学習アルゴリズムです。
各処理のポイントはコメントをご参照ください。
[コード]
1 | import gym |