カスタムGym環境作成(7) - ちょっと複雑なマップをACKTRで完全攻略

5月 29, 2021

前回ACKTRアルゴリズムで学習モデルを作成しました。

今回はそのモデルを読み込んで、ちょっとだけ複雑にしたマップを攻略できるかどうか確認します。

ACKTR学習済みモデルを使って攻略

ACKTRアルゴリズムで学習したモデルを読み込んで、カスタム環境にて実行させます。

[ソース]

play5.py

# 警告を非表示
import warnings
warnings.simplefilter('ignore')
import tensorflow as tf
tf.get_logger().setLevel("ERROR")

import gym
from env4 import MyEnv

from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import ACKTR

# 環境の生成
env = MyEnv()
env = DummyVecEnv([lambda: env])

# モデルの読み込み
model = ACKTR.load('model4')

# モデルのテスト
state = env.reset()
total_reward = 0
while True:
    # 環境の描画
    env.render()

    # モデルの推論
    action, _ = model.predict(state)

    # １ステップの実行
    state, reward, done, info = env.step(action)
    total_reward += reward
    print('reward:', reward, 'total_reward', total_reward)
    print('-----------')

    print('')
    # エピソード完了
    if done:
        # 環境の描画
        print('total_reward:', total_reward)
        break

実行結果は以下のようになりました。

[結果]

Loading a model without an environment, this model cannot be trained until it has a valid environment.
☆山山　山　山Ｇ
　山　　山　山　
　　　　山　　　
山　山山山　　山
山　山　　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-1.]
-----------

Ｓ山山　山　山Ｇ
☆山　　山　山　
　　　　山　　　
山　山山山　　山
山　山　　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-2.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
☆　　　山　　　
山　山山山　　山
山　山　　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-3.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　☆　　山　　　
山　山山山　　山
山　山　　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-4.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山　　　
山☆山山山　　山
山　山　　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-5.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山　　　
山　山山山　　山
山☆山　　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-6.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山　　　
山　山山山　　山
山　山　　　　　
　☆　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-7.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山　　　
山　山山山　　山
山　山　　　　　
　　☆　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-8.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山　　　
山　山山山　　山
山　山　　　　　
　　　☆山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-9.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山　　　
山　山山山　　山
山　山☆　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-10.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山　　　
山　山山山　　山
山　山　☆　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-11.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山　　　
山　山山山　　山
山　山　　☆　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-12.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山　　　
山　山山山☆　山
山　山　　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-13.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山☆　　
山　山山山　　山
山　山　　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-14.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山　☆　
山　山山山　　山
山　山　　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-15.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山　
　　　　山　　☆
山　山山山　　山
山　山　　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [-1.] total_reward [-16.]
-----------

Ｓ山山　山　山Ｇ
　山　　山　山☆
　　　　山　　　
山　山山山　　山
山　山　　　　　
　　　　山　　山
山山　　山山　　
山山山　山山　山
reward: [100.] total_reward [84.]
-----------

total_reward: [84.]

まっすぐにスタート地点からゴールまで進んでいることが分かります。

少しだけ複雑にしたマップでもきちんと学習できるようになりました。改善したは次の２点です。

学習済みアルゴリズムを変更
PPO2からACKTRに学習アルゴリズムを変更しました。
学習ステップ数を５倍に変更
学習ステップ数を128000から128000*5に変更しました。

カスタム環境を変えて、うまく学習できなくなった場合はこのような変更を行って試行錯誤することが必要になるようです。

また、まったく同じ条件で学習してもうまく学習できる場合とそうでない場合があります。

何度か実行してみて平均報酬や平均エピソード長などをグラフ化しきちんと収束（学習）できているかどうかを確認する必要もあります。

AI全般そうかと思いますが、強化学習に関する作業もなかなか地道なものが多いですね😌