Unity ML-Agents V0.4.0bがなんとか動くようになった件

November 16, 2019

強化学習を実践していく上でシミュレータが必要なことがわかり、シミュレータとしてはUnityが便利だということがわかり、さらにUnity ML-Agentsを使うとPythonからUnityを動作させることが分かりました。
そして参考文献を探したところ目的にはまった下記の書籍を見つけましたがバージョンが古いせいでしょうか、まったく動作させることができずしばらく放置していました。

しかしなんとか動作させることができるようになったので備忘録としてまとめておきます。

Pythonで学ぶ強化学習 -入門から実践まで- サンプルコード

【手順１】Unityインストール

書籍(P.41)にしたがってUnityをインストールします。
私の環境ではUnityのバージョンは2017.3.1f1 (64-bit)を使用しました。

【手順２】Unity ML-Agents v0.4.0bダウンロード

サポートサイトに記載されていますが、下記のリンクからUnity ML-Agents v0.4.0bをダウンロードします。
https://github.com/Unity-Technologies/ml-agents/tree/0.4.0b

※2019/11/16現在の最新バージョンは0.11なのでかなり古いバージョンです。

【手順３】TensorFlowSharpプラグインダウンロード

書籍(P.42)にしたがってTensorFlowSharpプラグインをダウンロードをインストールします。

【手順４】Pythonインストール

書籍(P.43)にしたがってPythonをインストールし、仮想環境を構築します。
Pythonバージョンは3.6で問題ありません。

【手順５】Pythonパッケージインストール

書籍(P.44)に該当する箇所ですが、【手順２】でダウンロードしたファイルを使ってPythonパッケージをインストールします。
ダウンロードしたものの中にpythonフォルダがありますのでそのフォルダに移動してインストールコマンドを実行します。

1 2	cd (ダウンロードした中のpythonフォルダ) pip install .

【手順６】Numpyバージョン変更

ここが一番はまったポイントでした。
Numpyのバージョンは1.17.4がインストールされていたのですがこれを1.14.5に落とします。

1 2	pip uninstall numpy pip install numpy==1.14.5

（動作確認時に配列関連エラーでExceptionが発生していたのでnumpyのバージョンを疑い、結果動作させることができるようになりました。）

【手順７】プロジェクト設定

書籍(P.47～P.49)にしたがってプロジェクトの設定を行います。

【手順８】Unity Editorで動作確認

書籍(P.50～P.52)のexeを作っての実行はうまくいかないのであきらめました。
書籍(P.63)「Unity Editor上での学習」の方を実行したところ問題なく動作確認できました。

以上で一通り書籍に書かれているサンプルを実行させることができるようになります。

もしこれでもうまくいかない場合のため、動作確認ができた環境のライブラリバージョン一覧を書いておきますので、参考にして頂ければと思います。

> pip list
Package            Version
------------------ -------------------
absl-py            0.8.1
astor              0.8.0
atomicwrites       1.3.0
attrs              19.3.0
backcall           0.1.0
bleach             1.5.0
certifi            2019.9.11
colorama           0.4.1
cycler             0.10.0
decorator          4.4.1
defusedxml         0.6.0
docopt             0.6.2
entrypoints        0.3
gast               0.3.2
grpcio             1.11.0
html5lib           0.9999999
importlib-metadata 0.23
ipykernel          5.1.3
ipython            7.9.0
ipython-genutils   0.2.0
ipywidgets         7.5.1
jedi               0.15.1
Jinja2             2.10.3
jsonschema         3.1.1
jupyter            1.0.0
jupyter-client     5.3.4
jupyter-console    6.0.0
jupyter-core       4.6.1
kiwisolver         1.1.0
Markdown           3.1.1
MarkupSafe         1.1.1
matplotlib         3.1.1
mistune            0.8.4
more-itertools     7.2.0
nbconvert          5.6.1
nbformat           4.4.0
notebook           6.0.2
numpy              1.14.5
packaging          19.2
pandocfilters      1.4.2
parso              0.5.1
pickleshare        0.7.5
Pillow             6.2.1
pip                19.3.1
pluggy             0.13.0
prometheus-client  0.7.1
prompt-toolkit     2.0.10
protobuf           3.5.2
py                 1.8.0
Pygments           2.4.2
pyparsing          2.4.5
pyrsistent         0.15.5
pytest             5.2.3
python-dateutil    2.8.1
pywin32            227
pywinpty           0.5.5
PyYAML             5.1.2
pyzmq              18.1.1
qtconsole          4.5.5
Send2Trash         1.5.0
setuptools         41.6.0.post20191030
six                1.13.0
tensorboard        1.7.0
tensorflow         1.7.1
termcolor          1.1.0
terminado          0.8.3
testpath           0.4.4
tornado            6.0.3
traitlets          4.3.3
unityagents        0.4.0
wcwidth            0.1.7
Werkzeug           0.16.0
wheel              0.33.6
widgetsnbextension 3.5.1
wincertstore       0.2
zipp               0.6.0

私と同じように動作確認をあきらめてしまった方の一助になれば幸いです。

経験の蓄積と活用のバランス Epsion-Greedey法

November 15, 2019

経験の蓄積と活用のトレードオフのバランスをとる手法としてEpsilon-Greedy法を実装します。

何枚かのコインから1枚を選んで、投げた時表が出れば報酬が得られるゲームを考えます。
各コインの表が出る確率はバラバラです。

必要なパッケージをインポートします。

1 2	import random import numpy as np

コイントスゲームの実装を行います。
head_probsは配列のパラメータで各コインの表が出る確率を指定します。

max_episode_stepsはコイントスを行う回数で、この回数の実行して表がでた回数が報酬となります。

class CoinToss():

    def __init__(self, head_probs, max_episode_steps=30):
        self.head_probs = head_probs
        self.max_episode_steps = max_episode_steps
        self.toss_count = 0

    def __len__(self):
        return len(self.head_probs)

    def reset(self):
        self.toss_count = 0

    def step(self, action):
        final = self.max_episode_steps - 1
        if self.toss_count > final:
            raise Exception("The step count exceeded maximum. Please reset env.")
        else:
            done = True if self.toss_count == final else False

        if action >= len(self.head_probs):
            raise Exception("The No.{} coin doesn't exist.".format(action))
        else:
            head_prob = self.head_probs[action]
            if random.random() < head_prob:
                reward = 1.0
            else:
                reward = 0.0
            self.toss_count += 1
            return reward, done

エージェントを作成します。

policy関数で、epsilonの確率でランダムにコインを選択し(探索)、それ以外の確率で各コインの期待値にそってコインを選択します(活用)。
play関数は、コイントスを行う処理です。

class EpsilonGreedyAgent():

    def __init__(self, epsilon):
        self.epsilon = epsilon
        self.V = []

    def policy(self):
        coins = range(len(self.V))
        if random.random() < self.epsilon:
            return random.choice(coins)
        else:
            return np.argmax(self.V)

    def play(self, env):
        # Initialize estimation.
        N = [0] * len(env)
        self.V = [0] * len(env)

        env.reset()
        done = False
        rewards = []
        while not done:
            selected_coin = self.policy()
            reward, done = env.step(selected_coin)
            rewards.append(reward)

            n = N[selected_coin]
            coin_average = self.V[selected_coin]
            new_average = (coin_average * n + reward) / (n + 1)
            N[selected_coin] += 1
            self.V[selected_coin] = new_average

        return rewards

5枚のコインを用意し、コイントスの回数を変えながら、各エピソードにおける1回のコイントスあたりの報酬を記録していきます。

if __name__ == "__main__":
    import pandas as pd
    import matplotlib.pyplot as plt

    def main():
        env = CoinToss([0.1, 0.5, 0.1, 0.9, 0.1])
        epsilons = [0.0, 0.1, 0.2, 0.5, 0.8]
        game_steps = list(range(10, 310, 10))
        result = {}
        for e in epsilons:
            agent = EpsilonGreedyAgent(epsilon=e)
            means = []
            for s in game_steps:
                env.max_episode_steps = s
                rewards = agent.play(env)
                means.append(np.mean(rewards))
            result["epsilon={}".format(e)] = means
        result["coin toss count"] = game_steps
        result = pd.DataFrame(result)
        result.set_index("coin toss count", drop=True, inplace=True)
        result.plot.line(figsize=(10, 5))
        plt.show()

    main()

epsilon=0.1と0.2ではコイントスの回数とともに報酬が向上していることが分かります。

参考

Pythonで学ぶ強化学習 -入門から実践まで- サンプルコード

価値の定義と算出 Bellman Equation

November 14, 2019

価値を再帰的かつ期待値で表現する手法をBellman Equationと呼びます。（Valueベース）
Bellman Equationを使えば各状態の価値が計算可能となります。

まず価値を返す関数を定義します。

1
2
3

def V(s, gamma=0.99):
    V = R(s) + gamma * max_V_on_next_state(s)
    return V

報酬関数を定義します。
エピソード終了のとき”happy_end”であれば1を返し、”bad_end”であれば-1を返します。
エピソードが終了していなければ0を返します。

def R(s):
    if s == "happy_end":
        return 1
    elif s == "bad_end":
        return -1
    else:
        return 0

全ての行動でV(s)を計算し値が最大になる価値を返します。
評価vの計算式は確率遷移×遷移先の価値となります。

upかdownかを繰り返していき5回行動したら終了となります。

def max_V_on_next_state(s):
    # If game end, expected value is 0.
    if s in ["happy_end", "bad_end"]:
        return 0

    actions = ["up", "down"]
    values = []
    for a in actions:
        transition_probs = transit_func(s, a)
        v = 0
        for next_state in transition_probs:
            prob = transition_probs[next_state]    # 確率遷移
            v += prob * V(next_state)              # 遷移先の価値
        values.append(v)
    return max(values)

遷移関数を定義します。

引数sには”state”や”state_up_up”、”state_down_down”などが受け渡されます。
引数aは”up”か”down”が設定されます。
エピソード完了時は1要素が返り、途中の場合は2要素が返ります。

def transit_func(s, a):
    actions = s.split("_")[1:]
    LIMIT_GAME_COUNT = 5
    HAPPY_END_BORDER = 4
    MOVE_PROB = 0.9

    def next_state(state, action):
        return "_".join([state, action])

    if len(actions) == LIMIT_GAME_COUNT:
        # 最大行動数と一致するのでエピソード終了
        up_count = sum([1 if a == "up" else 0 for a in actions])
        state = "happy_end" if up_count >= HAPPY_END_BORDER else "bad_end"
        prob = 1.0
        return {state: prob}
    else:
        opposite = "up" if a == "down" else "down"
        return {
            next_state(s, a): MOVE_PROB,
            next_state(s, opposite): 1 - MOVE_PROB
        }

実際に価値V(s)の計算を行ってみます。

if __name__ == "__main__":
    print(V("state"))
    print(V("state_up_up"))
    print(V("state_down_down"))

upの数が多い方が評価されます。

参考

Pythonで学ぶ強化学習 -入門から実践まで- サンプルコード

マルコフ決定過程(MDP)

November 13, 2019

マルコフ決定過程(MDP)に従う環境を構築します。

マルコフ決定過程(MDP)は次のようなルールに従います。

遷移先の状態は直前の状態とそこでの行動のみに依存する。
報酬は直前の状態と遷移先に依存する。

今回は次のような迷路を解く環境を実装します。

まずは必要なパッケージをインポートします。

1
2
3

import random
from enum import Enum
import numpy as np

状態を表すクラスを定義します。
縦位置をrow、横位置をcolumnで表します。

class State():

    def __init__(self, row=-1, column=-1):
        self.row = row
        self.column = column

    def __repr__(self):
        return "<State: [{}, {}]>".format(self.row, self.column)

    def clone(self):
        return State(self.row, self.column)

    def __hash__(self):
        return hash((self.row, self.column))

    def __eq__(self, other):
        return self.row == other.row and self.column == other.column

行動を表すクラスを定義します。
行動は上下左右への移動4種類です。

class Action(Enum):
    UP = 1
    DOWN = -1
    LEFT = 2
    RIGHT = -2

環境の実体となるクラスを定義します。
迷路の定義を2次元配列のgridで受け取ります。

gridの要素は次のような意味となります。

値	意味
0	移動可能な場所を表します。
-1	ダメージを受ける場所でゲーム終了となります。
1	報酬を得られる場所でゲーム終了となります。
9	壁を意味し移動することができない場所です。

default_rewardは基本の報酬となり、この変数をマイナスにすることで意味なく行動することを防ぎ、早くゴールに向かうことを促します。

class Environment():

    def __init__(self, grid, move_prob=0.8):
        # grid is 2d-array. Its values are treated as an attribute.
        # Kinds of attribute is following.
        #  0: ordinary cell
        #  -1: damage cell (game end)
        #  1: reward cell (game end)
        #  9: block cell (can't locate agent)
        self.grid = grid
        self.agent_state = State()

        # Default reward is minus. Just like a poison swamp.
        # It means the agent has to reach the goal fast!
        self.default_reward = -0.04

        # Agent can move to a selected direction in move_prob.
        # It means the agent will move different direction
        # in (1 - move_prob).
        self.move_prob = move_prob
        self.reset()

    @property
    def row_length(self):
        return len(self.grid)

    @property
    def column_length(self):
        return len(self.grid[0])

    @property
    def actions(self):
        return [Action.UP, Action.DOWN,
                Action.LEFT, Action.RIGHT]

    @property
    def states(self):
        states = []
        for row in range(self.row_length):
            for column in range(self.column_length):
                # Block cells are not included to the state.
                if self.grid[row][column] != 9:
                    states.append(State(row, column))
        return states

遷移関数を定義します。
選択した行動にはmove_prob(80%)の行動確率を設定し、反対の行動には0%の行動確率を設定します。
残りの2方向の移動には10%の行動確率を設定します。
（トータルの行動確率は100%になります。）

def transit_func(self, state, action):
    transition_probs = {}
    if not self.can_action_at(state):
        # Already on the terminal cell.
        return transition_probs

    opposite_direction = Action(action.value * -1)

    for a in self.actions:
        prob = 0
        if a == action:
            prob = self.move_prob
        elif a != opposite_direction:
            prob = (1 - self.move_prob) / 2

        next_state = self._move(state, a)
        if next_state not in transition_probs:
            transition_probs[next_state] = prob
        else:
            transition_probs[next_state] += prob

    return transition_probs

行動できる場所(状態)かどうかを判定する関数を定義します。

def can_action_at(self, state):
    if self.grid[state.row][state.column] == 0:
        return True
    else:
        return False

ある状態である行動をすると、次にどの状態になるかを返す関数を定義します。
迷路の範囲外への移動を防いだり、壁にぶつかったかどうかはこの関数内で判断します。

def _move(self, state, action):
    if not self.can_action_at(state):
        raise Exception("Can't move from here!")

    next_state = state.clone()

    # Execute an action (move).
    if action == Action.UP:
        next_state.row -= 1
    elif action == Action.DOWN:
        next_state.row += 1
    elif action == Action.LEFT:
        next_state.column -= 1
    elif action == Action.RIGHT:
        next_state.column += 1

    # Check whether a state is out of the grid.
    if not (0 <= next_state.row < self.row_length):
        next_state = state
    if not (0 <= next_state.column < self.column_length):
        next_state = state

    # Check whether the agent bumped a block cell.
    if self.grid[next_state.row][next_state.column] == 9:
        next_state = state

    return next_state

報酬関数を定義します。
ある状態で報酬が得られるかどうか、ダメージを受けるかどうかを判定します。
ゲームが終了するかどうかもこの報酬関数で判定します。

def reward_func(self, state):
    reward = self.default_reward
    done = False

    # Check an attribute of next state.
    attribute = self.grid[state.row][state.column]
    if attribute == 1:
        # Get reward! and the game ends.
        reward = 1
        done = True
    elif attribute == -1:
        # Get damage! and the game ends.
        reward = -1
        done = True

    return reward, done

エージェントの位置を初期化する関数を定義します。
ゲーム開始時や、ゲームが終わり再度ゲームを開始する場合に使用します。

def reset(self):
    # Locate the agent at lower left corner.
    self.agent_state = State(self.row_length - 1, 0)
    return self.agent_state

行動を行う関数を定義します。
行動を受け取り、遷移関数から遷移先を算出し、さらに報酬関数から即時報酬を取得します。

def step(self, action):
    next_state, reward, done = self.transit(self.agent_state, action)
    if next_state is not None:
        self.agent_state = next_state

    return next_state, reward, done

遷移関数を定義します。
行動を受け取り、遷移関数を使って行動確率を取得します。
行動確率から実際にどう行動するかどうかを最終決定します。(np.random.choice関数を使用)
決定した行動より遷移先と報酬、終了したかどうかの結果が導きだされます。

def transit(self, state, action):
    transition_probs = self.transit_func(state, action)
    if len(transition_probs) == 0:
        return None, None, True

    next_states = []
    probs = []
    for s in transition_probs:
        next_states.append(s)
        probs.append(transition_probs[s])

    next_state = np.random.choice(next_states, p=probs)
    reward, done = self.reward_func(next_state)
    return next_state, reward, done

エージェントを定義します。
エージェントのpolicyは状態を受け取って行動を決める関数ですが、今回は単純にランダム行動をとるようにしています。

class Agent():

    def __init__(self, env):
        self.actions = env.actions

    def policy(self, state):
        return random.choice(self.actions)

環境内でエージェントを動作させるコードを実装します。
迷路の定義(grid)を行い、それをもとにして環境(Environment)作成します。
作成した環境をエージェントに渡して、そのエージェントを行動させることでゲームが実行されます。

def main():
    # Make grid environment.
    grid = [
        [0, 0, 0, 1],
        [0, 9, 0, -1],
        [0, 0, 0, 0]
    ]
    env = Environment(grid)
    agent = Agent(env)

    # Try 10 game.
    for i in range(10):
        # Initialize position of agent.
        state = env.reset()
        total_reward = 0
        done = False

        while not done:
            action = agent.policy(state)
            next_state, reward, done = env.step(action)
            total_reward += reward
            state = next_state

        print("Episode {}: Agent gets {} reward.".format(i, total_reward))

if __name__ == "__main__":
    main()

単純なランダム行動ですが、10ゲーム行い10回分の報酬を取得できることを確認できます。

参考

Pythonで学ぶ強化学習 -入門から実践まで- サンプルコード

進化戦略と遺伝的アルゴリズム

November 12, 2019

ニューラルネットワークの学習では勾配法が使われることが一般的ですが、勾配法とは違うアプローチとして「進化戦略」と「遺伝的アルゴリズム」があります。

進化戦略

パラメータを複数生成し、各パラメータを使った場合のモデルを評価します。
評価がよいものに近いパラメータをさらに生成し、評価を行うというプロセスを繰り返します。
（多くの候補から優秀なものを絞り込むというアプローチです）

遺伝的アルゴリズム

進化戦略と基本は同じですが、評価が高かったパラメータ同士を混ぜる（交叉）、ランダムなパラメータを入れる（突然変異）という操作を行います。

模倣学習

November 11, 2019

模倣学習では、専門家や上手な人の行動を記録しておいてそれと近い行動をとるようにエージェントを学習させます。
少ないデータで望ましい行動を短時間で学習させることができる模倣学習はとても重要な学習手法です。

模倣学習には２つの問題があります。

状態数が多い場合、上手な人の行動をとりきるのが困難になる。
行動を記録するのが難しい状態がある。

模倣学習の方法として次の4つがあります。

1.Forward Training

各タイムステップの個別戦略を作っておいてそれをつなぎ合わせて全体戦略とします。
単純な教師あり学習より実際の状態遷移分布に近いデータで各戦略を学習させることができます。

2.SMILe

複数の戦略を混合していく手法です。
最初の戦略は上手な人の行動だけから学習し、その後は学習した戦略を混ぜていきます。

3.DAgger

戦略ではなくデータを混ぜ合わせていき、そこから学習して戦略を作成していきます。
具体的には各ステップで得られた状態とその状態における上手な人の行動のペアを学習データに足していきます。

4.GAIL

上手な人の模倣を見破られないようにする手法です。
模倣する側と模倣を見破る側の２つのモデルが存在し、一方は模倣を行いもう一方は鑑定を行う設定で学習を行います。（敵対的学習）

探索の概要

November 10, 2019

探索

現在の状態を開始点として、数手先をどう展開するかを先読みし、展開先の状態を評価します。
その状態評価をもとに現在の状態での最良の一手を選ぶ手法です。

探索では状態の展開を表すのにゲーム木でモデル化します。

完全ゲーム木

ゲームの開始から選択できるすべての手を含んだゲーム木です。
これがあれば絶対に負けない戦略を立てることができますが、完全ゲーム木のノード数は膨大なため計算が不可能なことがほとんどです。

部分ゲーム木

現在の状態から時間内に探索できる分だけを含んだゲーム木です。
有効だと思われるノードは深く探索し、有効でないノードは途中で探索を打ち切ります。
強さはいかに効率が高い部分ゲーム木を手に入れられるかということにかかってきます。

ニューロンとニューラルネットワーク

November 9, 2019

ニューロン

ニューロンは人間の脳内にある神経細胞のことです。

深層学習でのニューロンは、人間脳内の神経細胞を模したものです。
このニューロンは重みパラメータと閾値（バイアス）を持っています。

重みパラメータ
ニューロン同士のつながりの強さを表します。
閾値（バイアス）
脳細胞の感度のようなものになります。
入力信号と重みパラメータを掛け合わせたものが閾値を超えた時に次のニューロンへ信号を送ります。（発火）

深層強化学習が行われることで、上記２つのパラメータが調整されていきます。

ニューラルネットワーク

ニューロンを複数並べたものを層といいます。
層を積み重ねたものがニューラルネットワークとなります。

入力層
最初にある層で入力を受け付けます。
入力データの数がニューロン数となります。
出力層
最後にある層で出力を行います。
出力する数（答えの数）がニューロン数となります。
隠れ層
入力層と出力層の間にある層です。
複数作成することが可能で、4層以上のニューラルネットワークがディープニューラルネットワークと呼ばれます。(入力層×1、隠れ層×2、出力層×1)

コンピュータの能力向上や、インターネットの広がりで学習データが容易に収集できるようになり深層強化学習は広く普及しました。

深層学習ニューラルネットワークで回帰

November 8, 2019

ニューラルネットワークで数値データの予測を行う推定モデルを作成します。
住宅情報から価格を予測します。

まずは必要なパッケージをインポートします。

# パッケージのインポート
from tensorflow.keras.datasets import boston_housing
from tensorflow.keras.layers import Activation, Dense, Dropout
from tensorflow.keras.models import Sequential
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.optimizers import Adam
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

データセットの準備を行います。

各データの内容は次の通りです。

変数名	内容
train_data	訓練データの配列
train_labels	訓練ラベルの配列
test_data	テストデータの配列
test_labels	テストラベルの配列

1 2	# データセットの準備 (train_data, train_labels), (test_data, test_labels) = boston_housing.load_data()

データセットのシェイプを確認します。

# データセットのシェイプの確認
print(train_data.shape)
print(train_labels.shape)
print(test_data.shape)
print(test_labels.shape)

訓練データと訓練ラベルは404件、テストデータとテストラベルは102件です。
データの13は住宅情報の種類数です。

訓練データの先頭10件を表示します。

# データセットのデータの確認
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE',  'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']
df = pd.DataFrame(train_data, columns=column_names)
df.head()

訓練ラベルの先頭10件を表示します。

1 2	# データセットのラベルの確認 print(train_labels[0:10])

学習前の準備として、訓練データと訓練ラベルをシャッフルします。
似たデータを連続して学習すると偏りが生じてしまうのを防ぐためです。

# データセットのシャッフルの前処理
order = np.argsort(np.random.random(train_labels.shape))
train_data = train_data[order]
train_labels = train_labels[order]

訓練データとテストデータの正規化を行います。
データを一定の方法で変換し同じ単位で比較しやすくするためです。

具体的には平均0、分散1で正規化を行います。

# データセットの正規化の前処理
mean = train_data.mean(axis=0)
std = train_data.std(axis=0)
train_data = (train_data - mean) / std
test_data = (test_data - mean) / std

データセットのデータが平均0、分散1になっていることを確認します。

# データセットの前処理後のデータの確認
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE',  'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']
df = pd.DataFrame(train_data, columns=column_names)
df.head()

モデルを作成します。今回は全結合層を3つ重ねた簡単なモデルとなります。

# モデルの作成
model = Sequential()
model.add(Dense(64, activation='relu', input_shape=(13,)))
model.add(Dense(64, activation='relu'))
model.add(Dense(1))

ニューラルネットワークモデルのコンパイルを行います。

損失関数 mse
平均二乗誤差 Mean Squared Error - 実際の値と予測値との誤差の二乗を平均したものです。
0に近いほど予測精度が高いことになります。
最適化関数 Adam
lrは学習率です。
評価指標 mae
平均絶対誤差 Mean Absolute Error - 実際の値と予測値との絶対値を平均したものです。
0に近いほど予測精度が高いことになります。

1 2	# コンパイル model.compile(loss='mse', optimizer=Adam(lr=0.001), metrics=['mae'])

EarlyStoppingの準備を行います。
任意のエポック数改善がないと学習を停止します。

1 2	# EarlyStoppingの準備 early_stop = EarlyStopping(monitor='val_loss', patience=30)

学習を行います。callbacksにEarlyStoppingを指定しています。

1 2	# 学習 history = model.fit(train_data, train_labels, epochs=500, validation_split=0.2, callbacks=[early_stop])

学習中に出力される情報の意味は次の通りです。

情報	説明
loss	訓練データの誤差です。0に近いほどよい結果となります。
mean_absolute_error	訓練データの平均絶対誤差です。0に近いほどよい結果となります。
val_loss	検証データの誤差です。0に近いほどよい結果となります。
val_mean_absolute_error	検証データの平均絶対誤差です。0に近いほどよい結果となります。

上記のデータうち、訓練データの平均絶対誤差(mae)と検証データの平均絶対誤差(val_mae)をグラフ表示します。

# グラフの表示
plt.plot(history.history['mean_absolute_error'], label='train mae')
plt.plot(history.history['val_mean_absolute_error'], label='val mae')
plt.xlabel('epoch')
plt.ylabel('mae [1000$]')
plt.legend(loc='best')
plt.ylim([0,5])
plt.show()

テストデータとテストラベルを推定モデルに渡して評価を行い、平均絶対誤差を算出します。

1
2
3

# 評価
test_loss, test_mae = model.evaluate(test_data, test_labels)
print('loss:{:.3f}\nmae: {:.3f}'.format(test_loss, test_mae))

平均絶対誤差は2.655となりました。

テストデータの先頭10件の推論を行い、予測結果を出力します。

# 推論する値段の表示
print(np.round(test_labels[0:10]))

# 推論した値段の表示
test_predictions = model.predict(test_data[0:10]).flatten()
print(np.round(test_predictions))

実際の価格に近い価格が推論されているような気がします。

(Google Colaboratoryで動作確認しています。)

参考

AlphaZero 深層学習・強化学習・探索人工知能プログラミング実践入門サポートページ

深層学習ニューラルネットワークで分類

November 7, 2019

手書き数字を分類するためにニューラルネットワークを作成し、実際の数字を推論するモデルを作ります。

まずは必要なパッケージをインポートします。

# パッケージのインポート
from tensorflow.keras.datasets import mnist
from tensorflow.keras.layers import Activation, Dense, Dropout
from tensorflow.keras.models import Sequential
from tensorflow.keras.optimizers import SGD
from tensorflow.keras.utils import to_categorical
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

データセットの準備を行います。

各データの内容は次の通りです。

変数名	内容
train_images	訓練画像の配列
train_labels	訓練ラベルの配列
test_images	テスト画像の配列
test_labels	テストラベルの配列

1 2	# データセットの準備 (train_images, train_labels), (test_images, test_labels) = mnist.load_data()

データセットのシェイプを確認します。

# データセットのシェイプの確認
print(train_images.shape)
print(train_labels.shape)
print(test_images.shape)
print(test_labels.shape)

訓練画像データは60000×画像サイズ(28×28)です。
訓練ラベルデータは60000の1次元配列となります。

データセットの画像を確認するために先頭の10件を表示します。

# データセットの画像の確認
for i in range(10):
    plt.subplot(1, 10, i+1)
    plt.imshow(train_images[i], 'gray')
plt.show()

データセットのラベルを確認するために先頭の10件を表示します。

1 2	# データセットのラベルの確認 print(train_labels[0:10])

学習を開始する事前準備として、データセットをニューラルネットワークに適した形に変換します。
具体的には、画像データを28×28の2次元配列から1次元配列(786)に変換します。

# データセットの画像の前処理
train_images = train_images.reshape((train_images.shape[0], 784))
test_images = test_images.reshape((test_images.shape[0], 784))

# データセットの画像の前処理後のシェイプの確認
print(train_images.shape)
print(test_images.shape)

ラベルデータに関しても、ニューラルネットワークに適した形に変換します。
具体的にはone-hot表現に変えます。
one-hot表現とは、ある1要素が1でほかの要素が0である配列です。
ラベルが8の場合は[0, 0, 0, 0, 0, 0, 0, 0, 1, 0]という配列になります。

# データセットのラベルの前処理
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

# データセットのラベルの前処理後のシェイプの確認
print(train_labels.shape)
print(test_labels.shape)

ニューラルネットワークのモデルを作成します。

入力層のシェイプは画像データに合わせて786で、出力層はラベルデータに合わせて10とします。
ユニット数と隠れ層の数は自由に決められますが今回はユニット数256と隠れ層128としました。

層とユニット数を増やすと複雑な特徴をとらえることができるようになる半面、学習時間が多くかかるようになってしまいます。
またユニット数が多くなると重要性の低い特徴を抽出して過学習になってしまう可能性があります。

Dropoutは過学習を防いでモデルの精度をあげるための手法となります。
任意の層のユニットをランダムに無効にして特定ニューロンへの依存を防ぎ汎化性能を上げます。

活性化関数は結合層の後に適用する関数で層からの出力に対して特定の関数を経由し最終的な出力値を決めます。活性化関数を使用することで線形分離不可能なデータも分類することができるようになります。

# モデルの作成
model = Sequential()
model.add(Dense(256, activation='sigmoid', input_shape=(784,))) # 入力層
model.add(Dense(128, activation='sigmoid')) # 隠れ層
model.add(Dropout(rate=0.5)) # ドロップアウト
model.add(Dense(10, activation='softmax')) # 出力層

ニューラルネットワークのモデルをコンパイルします。

損失関数 [loss]
モデルの予測値と正解データの誤差を計算する関数です。
最適化関数 [optimizer]
損失関数の結果が0に近づくように重みパラメータとバイアスを最適化する関数です。
評価指標 [metrics]
モデル性能を測定するための指標です。測定結果は、学習を行うfit()の戻り値に格納されます。

1 2	# コンパイル model.compile(loss='categorical_crossentropy', optimizer=SGD(lr=0.1), metrics=['acc'])

訓練画像と訓練モデルを使って学習を実行します。

1 2	# 学習 history = model.fit(train_images, train_labels, batch_size=500, epochs=5, validation_split=0.2)

学習中に出力される情報の意味は次の通りです。

情報	説明
loss	訓練データの誤差です。0に近いほどよい結果となります。
acc	訓練データの正解率です。1に近いほどよい結果となります。
val_loss	検証データの誤差です。0に近いほどよい結果となります。
val_acc	検証データの正解率です。1に近いほどよい結果となります。

上記のデータうち、訓練データの正解率(acc)と検証データの正解率(val_acc)をグラフ表示します。

# グラフの表示
plt.plot(history.history['acc'], label='acc')
plt.plot(history.history['val_acc'], label='val_acc')
plt.ylabel('accuracy')
plt.xlabel('epoch')
plt.legend(loc='best')
plt.show()

テスト画像とテストラベルをモデルに渡して評価を行います。

1
2
3

# 評価
test_loss, test_acc = model.evaluate(test_images, test_labels)
print('loss: {:.3f}\nacc: {:.3f}'.format(test_loss, test_acc ))

正解率は91.0%となりました。

先頭10件のテスト画像の推論を行い、画像データと予測結果を合わせて表示します。

# 推論する画像の表示
for i in range(10):
    plt.subplot(1, 10, i+1)
    plt.imshow(test_images[i].reshape((28, 28)), 'gray')
plt.show()

# 推論したラベルの表示
test_predictions = model.predict(test_images[0:10])
test_predictions = np.argmax(test_predictions, axis=1)
print(test_predictions)