自作の環境(カスタムGym環境)を学習させて実行してみます。
カスタムGym環境の作成
右への移動を学ぶ環境GoRightを実装します。(前回実行したもののと同じものとなります。)
エージェントが左右に移動する5マスの環境になります。
[コード]
1 | import numpy as np |
カスタムGym環境を学習させて実行
PPOで学習させて実行します。
[コード]
1 | import gym |
上記コードを実行するとコンソールに次のような表示がされます。
[実行結果]
A.... .A... ..A.. ...A. total_reward: [0.7]
学習がうまくいっているようで、一直線に右に向かって移動していることが分かります。