Stable Baselinesという強化学習アルゴリズムを使ってCartPoleを実行します。
インストール
下記のコマンドを実行しStable Baselinesを準備します。
1 | pip install stable-baselines[mpi] |
強化学習アルゴリズムを使ってCartPole実行
強化学習のモデルを作成し、100,000回学習を行ってからCartPoleを実行してみます。
[コード]
1 | import gym |
実行してみると、棒が倒れることなくうまくバランスをとっていることが確認できます。