gym-donkeycar - 強化学習環境の紹介⑫

May 25, 2020

Donkey Car は、市販のラジコンカーを改造して自律走行させることができるプラットフォームです。

Donkey Car - https://www.donkeycar.com/

gym-donkeycar は、この Donkey Car のシミュレータのGym環境です。

gym-donkeycar - https://github.com/tawnkramer/gym-donkeycar

gym-sokoban - 強化学習環境の紹介⑪

May 24, 2020

gym-sokobanは、倉庫の保管場所にすべての荷物を運ぶ倉庫番のゲーム環境です。

DeepMindの論文 Imagination Augmented Agents for Deep Reinforcement Learning で発表されたルールに基づいて実装されています。

gym-sokoban - https://github.com/mpSchrader/gym-sokoban

gym-minigrid - 強化学習環境の紹介⑩

May 23, 2020

gym-minigridは、シンプルかつ軽量なグリッドワールド環境です。

各環境はサイズや複雑さがプログラムで調整可能で、カリキュラムの学習や難易度の微調整に便利です。

gym-minigrid - https://github.com/maximecb/gym-minigrid

gym-maze - 強化学習環境の紹介⑨

May 22, 2020

gym-mazeは、単純な2D迷路環境です。

スタートからゴールまでの最短経路を見つけることが目的となります。

gym-maze - https://github.com/MattChanTK/gym-maze

gym-city - 強化学習環境の紹介⑧

May 21, 2020

Micropolis（オープンソース版のシムシティ１）および Conway’s Game of Life の１プレイヤーバージョンを含む、さまざまな規模の都市計画を行うための強化学習環境です。

gym-city - https://github.com/smearle/gym-city

GVGAI GYM - 強化学習環境の紹介⑦

May 20, 2020

GVGAI GYMは、ビデオゲーム記述言語（Video Game Description Language）で記述されたゲーム用の強化学習環境です。

AI研究用に作成された９個のクラシックゲームのクローンが含まれています。

GVGAI GYM - https://github.com/rubenrtorrado/GVGAI_GYM

Generic Video Gameコンペティション用のフレームワークも含まれています。

The GVG-AI Competition - http://www.gvgai.net/

Youtube上にデモ映像もあります。

osim-rl - 強化学習環境の紹介⑥

May 19, 2020

osim-rlは、人間の筋骨格モデルと物理ベースのシミュレーション環境です。

人間モデルのコントローラーを開発して、最小限の労力で速度命令に従って、歩いたり走ったりすることが目的になります。

osim-rl - https://github.com/stanfordnmbl/osim-rl

atari - 模倣学習② 人間のデモを使って事前学習を行う

May 18, 2020

前回収集した人間のデモ操作データを使って事前学習を行います。

環境設定に関しては、前回の記事（模倣学習② 人間のデモを使って事前学習を行う）を参照して下さい。

（Ubuntu 19.10で動作確認しています。）

模倣学習

人間のデモ操作データであるbowling_demo.npzファイルとrecorded_imagesフォルダを使って模倣学習を行うコードは以下の通りです。

[コード]

import gym
import time
from stable_baselines import PPO2
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines.gail import ExpertDataset, generate_expert_traj
from baselines.common.atari_wrappers import *

# 環境の生成
env = gym.make('BowlingNoFrameskip-v0')
env = MaxAndSkipEnv(env, skip=4) # 4フレームごとに行動を選択
env = WarpFrame(env) # 画面イメージを84x84のグレースケールに変換
env = DummyVecEnv([lambda: env])

# デモデータの読み込み 
dataset = ExpertDataset(expert_path='bowling_demo.npz',verbose=1)

# モデルの生成
model = PPO2('CnnPolicy', env, verbose=1)

# モデルの読み込み
# model = PPO2.load('bowling_model', env=env)

# モデルの事前訓練
model.pretrain(dataset, n_epochs=1000)

# モデルの学習
# model.learn(total_timesteps=256000)

# モデルの保存
model.save('bowling_model')

# モデルのテスト
state = env.reset()
total_reward = 0
while True:
    env.render()                                    # 環境の描画
    time.sleep(1/60)                                # スリープ
    action, _ = model.predict(state)                # モデルの推論
    state, reward, done, info = env.step(action)    # 1ステップ実行
    total_reward += reward[0]
    if done:
        print('reward:', total_reward)
        state = env.reset()
        total_reward = 0

人間の操作したデータを事前学習するにはmodel.pretrain関数（24行目）を使います。
引数の意味は下記の通りです。

dataset（ExpertDataset型）
データセット
n_epochs（int型）
学習の反復回数
learning_rate（float型）
学習率
adam_epsilon（float型）
Adamオプティマイザーのε（エプシロン）
val_interval（int型）
nエポック毎に学習と検証の損失を出力

また模倣学習を行った後、さらに強化学習を行う場合はmodel.learn関数（27行目）をコメントアウトします。

実行

実行すると、スコアは「120.2」になりました。（人間のデモ操作によって結果は変わります。）

模倣学習と合わせて強化学習も合わせて実行した結果や、強化学習のみで実行した結果も調査していきたいと思います。

atari - 模倣学習① 人間のデモ収集

May 17, 2020

ランダム行動では報酬を見つけにくい環境に対応するために模倣学習を試してみます。

Atari環境の１つであるボーリングゲーム(Bowling)を実行環境とします。

（Windowsではうまく動作しなかったので、Ubuntu 19.10で動作確認しています。）

インストール

下記のコマンドを実行し、実行環境をインストールします。

pip3 install gym
apt install cmake libopenmpi-dev python3-dev zlib1g-dev
pip3 install stable_baselines[mpi]
pip3 install tensorflow==1.14.0
pip3 install imageio
pip3 install baselines

人間のデモ収集

人間のデモ収集を行うコードは下記になります。

[コード]

import random
import pyglet
import gym
import time
from pyglet.window import key
from stable_baselines.gail import generate_expert_traj
from baselines.common.atari_wrappers import *

# 環境を作成
env = gym.make('BowlingNoFrameskip-v0')
env = MaxAndSkipEnv(env, skip=4) # 4フレームごとに行動を選択
env = WarpFrame(env) # 画面イメージを84x84のグレースケールに変換
env.render()

# キーイベント用のウィンドウ作成
win = pyglet.window.Window(width=300, height=100, vsync=False)
key_handler = pyglet.window.key.KeyStateHandler()
win.push_handlers(key_handler)
pyglet.app.platform_event_loop.start()

# キー状態の取得
def get_key_state():
   key_state = set()
   win.dispatch_events()
   for key_code, pressed in key_handler.items():
       if pressed:
           key_state.add(key_code)
   return key_state

# キー入力待ち
while len(get_key_state()) == 0:
   time.sleep(1.0/30.0)

# 人間のデモを収集するコールバック
def human_expert(_state):
   key_state = get_key_state()  # キー状態の取得
   action = 0                   # 行動の選択

   if key.SPACE in key_state:
       action = 1
   elif key.UP in key_state:
       action = 2
   elif key.DOWN in key_state:
       action = 3

   time.sleep(1.0/30.0)  # スリープ
   env.render()          # 環境の描画
   return action         # 行動の選択

# 人間のデモの収集
generate_expert_traj(human_expert, 'bowling_demo', env, n_episodes=1)

デモ収集にはgenerate_expert_trajを使います。引数の意味は下記の通りです。

model（モデルまたはコールバック型）
モデルまたはコールバック
save_path（str型）
保存先のデモファイルのパス（拡張子なし）
env（gym.Env型）
環境
n_timesteps（int型）
モデルの学習ステップ数
n_episodes（int型）
記録するエピソード数
image_folder（str型）
画像を使用する場合の保存フォルダ

返値はデモ demo(dict型)となります。

実行

実行すると、次のような画面が表示されます。右側のウィンドウにフォーカスをあてるとゲームを操作することができます。

up、downで位置を選択し、fireでボールを投げます。
ボールを投げた後にup、downでボールの起動を曲げることができます。

１０ゲーム（１エピソード）の人間の操作が収集され、bowling_demo.npzファイルとrecorded_imagesフォルダが出力されます。

bowling_demo.npzファイル
Pythonの辞書形式で保存されます。
キーとしてactions、episode_returns、rewards、obs、episode_startsがあり、obsには画像への相対パスが格納されます。
recorded_imagesフォルダ
各状態の画像が保存されます。

次回は、今回収集した人間のデモデータを使って事前学習を行います。