カスタムGym環境作成(9) - 川と橋のあるマップをランダム実行

5月 31, 2021

前回記事で、マップに川と橋を追加しカスタムGym環境を実装しました。

[川と橋を追加したマップイメージ]

今回は、そのマップに対してランダムで実行しています。

川と橋と橋のあるマップをランダム実行

ランダム実行するソースは下記の通りです。

2行目でインポートするカスタムGym環境をenv6にしているのが、唯一の変更箇所となります。

[ソース]

random6.py

import gym
from env6 import MyEnv

# 環境の生成
env = MyEnv()

# 環境リセット
state = env.reset()

total_reward = 0
while True:
    # ランダム行動の取得
    action = env.action_space.sample()
    # １ステップの実行
    state, reward, done, info = env.step(action)
    total_reward += reward
    #print('state=', state, 'reward=', reward)
    # 環境の描画
    env.render()
    print('reward:', reward, 'total_reward', total_reward)
    print('-----------')
    # エピソード完了
    if done:
        print('done')
        break

ランダム実行のため毎回結果が異なります。
１０回ほど実行した結果は下記のようになりました。

[結果]

１回目
total_reward -150
２回目
total_reward -571
３回目
total_reward 30
４回目
total_reward -1139
５回目
total_reward -1867
６回目
total_reward -142
７回目
total_reward -46
８回目
total_reward -298
９回目
total_reward -1286
１０回目
total_reward -441

トータル報酬は -1867から30 の範囲となりました。

次回はStable BaselinesのACKTRアルゴリズムを使って、強化学習を行ってみます。