OpenAI Gymで準備されている環境ではなく、自作の環境(カスタムGym環境)を作成してみます。
カスタムGym環境の作成
右への移動を学ぶ環境GoRightを実装します。
エージェントが左右に移動する5マスの環境になります。
[コード]
1 | import numpy as np |
カスタムGym環境の動作確認
自作した環境をランダム行動で実行してみます。
gym.make関数を使わずに、GoRightクラスを直接生成しています。
[コード]
1 | import gym |
上記コードを実行するとコンソールに次のような表示がされます。
(ランダム行動のため実行結果は毎回異なります。)
[実行結果]
reward: -0.1 .A... reward: -0.1 A.... reward: -0.1 .A... reward: -0.1 ..A.. reward: -0.1 ...A. reward: 1 ....A done
エージェントAが左右に移動し、最終的に一番右に移動し終了していることが分かります。