NEOブロックチェーン(4) - スマートコントラクト実行

NEOはブロックチェーンプロジェクトの1つです。

今回はスマートコントラクトを実行してみます。

スマートコントラクト実行フロー

スマートコントラクトを実行するフローは次のようになります。

  1. pythonでコードを書く。
  2. buildコマンドでpyファイルをコンパイルし、avmファイルを作成する。
  3. sc deployコマンドでコントラクト(avmファイル)をネットワークにデプロイする。
  4. sc invokeコマンドでコントラクトのメソッドをコールする。

1. コーディング

所定のディレクトリに移動し、pythonファイルを作成します。

[コマンド]

1
2
cd ./neo-local/smart-contracts
vi test1.py

[ソース]

test1.py
1
2
def Main():
print("Hello World")

“Hello World”と表示するだけの簡単な処理となります。

2. コンパイル

neo-localを起動し、neo-pythonプロンプト起動します。

[コマンド]

1
2
cd ..
sudo make start

スマートコントラクトのログを表示する設定を行います。

[コマンド]

1
config sc-events on

[結果]

1
Smart contract event logging is now enabled

pyファイルをコンパイルします。

[コマンド]

1
sc build /smart-contracts/test1.py

[結果]

1
Saved output to /smart-contracts/test1.avm 

正常にコンパイルできるとsmart-contractsディレクトリ配下にtest1.avmが作成されます。

3. デプロイ

デプロイを行うためにはウォレットが必要となりますので、ウォレットを開いておきます。

パスワードはcozです。

[コマンド]

1
wallet open neo-privnet.wallet

[結果]

1
2
[password]> ***
Opened wallet at neo-privnet.wallet

deployコマンドを使ってavmファイルをデプロイします。

いくつか入力を求められますが、[contract name]にはtest1を指定し、そのほかは何も入力しないでエンターを押します。

パスワードはcozです。

[コマンド]

1
sc deploy /smart-contracts/test1.avm True False False 07 05

引数の意味は、順番に次の通りです。

  • True コントラクトがストレージを使うかどうか(needs_storage)
  • False 他のコントラクトを参照するかどうか(needs_dynamic_invoke)
  • False コントラクト内でNEOやNEOGas、他のトークンとの換金が行われるか(is_payable)
  • 07 inputがstring型である
  • 05 outputがbyte型がである

[結果]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
Please fill out the following contract details:
[Contract Name] > test1
[Contract Version] >
[Contract Author] >
[Contract Email] >
[Contract Description] >
Creating smart contract....
Name: test1
Version:
Author:
Email:
Description:
Needs Storage: True
Needs Dynamic Invoke: False
Is Payable: False
{
"hash": "0x5f21886e9c5674ef65f3ba787c45c7a4957621cd",
"script": "53c56b0b48656c6c6f20576f726c64680f4e656f2e52756e74696d652e4c6f67006c7566",
"parameters": [
"String"
],
"returntype": "ByteArray"
}
[I 210620 01:22:44 EventHub:58] [test_mode][SmartContract.Contract.Create] [5f21886e9c5674ef65f3ba787c45c7a4957621cd] {'type': 'InteropInterface', 'value': {'version': 0, 'hash': '0x5f21886e9c5674ef65f3ba787c45c7a4957621cd', 'script': '53c56b0b48656c6c6f20576f726c64680f4e656f2e52756e74696d652e4c6f67006c7566', 'parameters': ['String'], 'returntype': 'ByteArray', 'name': 'test1', 'code_version': '', 'author': '', 'email': '', 'description': '', 'properties': {'storage': True, 'dynamic_invoke': False, 'payable': False}}}
[I 210620 01:22:44 EventHub:58] [test_mode][SmartContract.Execution.Success] [d3e19bd3d6b90ea7af5c8fa0681aed5c8ac9bb71] {'type': 'Array', 'value': [{'type': 'InteropInterface', 'value': {'version': 0, 'hash': '0x5f21886e9c5674ef65f3ba787c45c7a4957621cd', 'script': '53c56b0b48656c6c6f20576f726c64680f4e656f2e52756e74696d652e4c6f67006c7566', 'parameters': ['String'], 'returntype': 'ByteArray', 'name': 'test1', 'code_version': '', 'author': '', 'email': '', 'description': '', 'properties': {'storage': True, 'dynamic_invoke': False, 'payable': False}}}]}
Used 500.0 Gas

-------------------------------------------------------------------------------------------------------------------------------------
Test deploy invoke successful
Total operations executed: 11
Results:
[<neo.Core.State.ContractState.ContractState object at 0x7f5da0a520b8>]
Deploy Invoke TX GAS cost: 490.0
Deploy Invoke TX Fee: 0.0
-------------------------------------------------------------------------------------------------------------------------------------

Enter your password to continue and deploy this contract
[password]> ***
[I 210620 01:23:56 Transaction:619] Verifying transaction: b'8d4eb06e2f3344c961b20e87fb89c879449ee4e58961f15e27042d9ff8a3d85b'
[I 210620 01:23:57 EventHub:62] [SmartContract.Verification.Success][2843] [9b0ab1768245bae9dd09ff3231acf1667a6aae3d] [tx 8d4eb06e2f3344c961b20e87fb89c879449ee4e58961f15e27042d9ff8a3d85b] {'type': 'Array', 'value': [{'type': 'Boolean', 'value': True}]}
Relayed Tx: 8d4eb06e2f3344c961b20e87fb89c879449ee4e58961f15e27042d9ff8a3d85b

ネットワークにコンストラクトが反映されるまで少し時間が必要となりますので、少々待ちます。

デプロイしたコントラクトを確認します。

引数にはデプロイ時に指定した[contract name] test1を指定します。

[コマンド]

1
search contract test1

[結果]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Found 1 results for test1
{
"version": 0,
"hash": "0x5f21886e9c5674ef65f3ba787c45c7a4957621cd",
"script": "53c56b0b48656c6c6f20576f726c64680f4e656f2e52756e74696d652e4c6f67006c7566",
"parameters": [
"String"
],
"returntype": "ByteArray",
"name": "test1",
"code_version": "",
"author": "",
"email": "",
"description": "",
"properties": {
"storage": true,
"dynamic_invoke": false,
"payable": false
}
}

4行目の”hash”は、コンストラクトを実行するときに必要となります。

4. 実行

デプロイしたコントラクトを実行します。

引数にはsearchコマンドで表示したhashを指定します。

パスワードはcozです。

[コマンド]

1
sc invoke 0x5f21886e9c5674ef65f3ba787c45c7a4957621cd

[結果]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
neo> sc invoke 0x5f21886e9c5674ef65f3ba787c45c7a4957621cd                                                               
[I 210620 01:29:21 EventHub:58] [test_mode][SmartContract.Runtime.Log] [5f21886e9c5674ef65f3ba787c45c7a4957621cd] {'type': 'String', 'value': 'Hello World'}
[I 210620 01:29:21 EventHub:58] [test_mode][SmartContract.Execution.Success] [5f21886e9c5674ef65f3ba787c45c7a4957621cd] {'type': 'Array', 'value': [{'type': 'ByteArray', 'value': bytearray(b'')}]}
Used 0.016 Gas

-------------------------------------------------------------------------------------------------------------------------------------
Test invoke successful
Total operations: 11
Results [{'type': 'ByteArray', 'value': ''}]
Invoke TX GAS cost: 0.0
Invoke TX fee: 0.0001
-------------------------------------------------------------------------------------------------------------------------------------

Enter your password to continue and deploy this contract
[password]> ***
[I 210620 01:29:25 Transaction:619] Verifying transaction: b'db800ab02631ae8fd05b1676eb14b8fe688acbae8191145459a8677ec6694750'
[I 210620 01:29:25 EventHub:62] [SmartContract.Verification.Success][3166] [b2348581314004c5ab7183174a6d021c84c881fa] [tx db800ab02631ae8fd05b1676eb14b8fe688acbae8191145459a8677ec6694750] {'type': 'Array', 'value': [{'type': 'Boolean', 'value': True}]}
Relayed Tx: db800ab02631ae8fd05b1676eb14b8fe688acbae8191145459a8677ec6694750

結果に’Hello World’(2行目)が表示されていることが確認できます。

また4行目の「Used 0.016 Gas 」よりGasが0.016消費されたことが分かります。

NEOブロックチェーン(3) - walletの操作

NEOはブロックチェーンプロジェクトの1つです。

今回はwalletの操作を試してみます。

walletの準備

まずはチュートリアル用に十分なGASが入ったwalletをローカル環境にインストールします。

[コマンド]

1
2
cd ./neo-local/wallets
curl -O https://s3.amazonaws.com/neo-experiments/neo-privnet.wallet

上記コマンドで、neo-privnet.walletというファイルがダウンロードされます。

walletの操作

neo-pythonのプロンプトを起動します。

[コマンド]

1
2
cd ..
sudo make start

neo-pythonのプロンプトが起動されると「neo>」が表示されます。

ダウンロードしたwalletを開けます。

パスワードは「coz」です。

[コマンド]

1
wallet open neo-privnet.wallet

[結果]

1
2
[password]> ***                                                                                                         
Opened wallet at neo-privnet.wallet

次に、walletの中身を確認します。

[コマンド]

1
wallet

[結果]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
[I 210619 00:24:52 UserWallet:480] Script hash b'#\xba\'\x03\xc52c\xe8\xd6\xe5"\xdc2 39\xdc\xd8\xee\xe9' <class 'bytes'>
Wallet {
"path": "neo-privnet.wallet",
"addresses": [
{
"version": 0,
"address": "AK2nJJpJr6o664CWJKi1QRXjqeic2zRp8y",
"script_hash": "e9eed8dc39332032dc22e5d6e86332c50327ba23",
"frozen": false,
"votes": [],
"balances": [
{
"asset": "0xc56f33fc6ecfcd0c225c4ab356fee59390af8560be0e930faebe74a6daff7c9b",
"value": "100000000.0"
},
{
"asset": "0x602c79718b16e442de58778e148d0b1084e3b2dffd5de6b7b16cee7969282de7",
"value": "1808.0"
}
],
"is_watch_only": false
}
],
"height": 1401,
"percent_synced": 100,
"synced_balances": [
"[NEO]: 100000000.0 ",
"[NEOGas]: 1808.0 "
],
"public_keys": [
{
"Address": "AK2nJJpJr6o664CWJKi1QRXjqeic2zRp8y",
"Public Key": "031a6c6fbbdf02ca351745fa86b9ba5a9452d785ac4f7fc2b7548ca2a46c4fcf4a"
}
],
"tokens": [],
"claims": {
"available": "0.0",
"unavailable": "4696.0"
}
}

NEOとGasが入ったWalletであることが確認できます。(27-28行目)

次回は、簡単なスマートコントラクトを実行してみます。

NEOブロックチェーン(2) - neo-localインストール

NEOはブロックチェーンプロジェクトの1つです。

neo-localは、自身のPCやサーバ上にすぐにNEOブロックチェーンを展開できるツールです。

neo-localのサービス

neo-localは、次のサービスで構成されます。

サービス内容
neo-local-faucet開発用フォーセット
neo-privatenetローカル実行用のプライベートネット
neo-python開発用CLI
neo-scan-apiブロック参照ツールのAPI
neo-scan-syncブロック参照ツールのブロックチェーンとの同期
postgresneoscan用のデータベース

neo-localを使うと、複数のDockerイメージが展開されます。

neo-localインストールと起動

以下のコマンドを実行し、neo-localのインストールと起動を行います。

初回起動時にDockerイメージをダウンロードしますので、時間がかかります。

[コマンド]

1
2
3
git clone https://github.com/CityOfZion/neo-local.git
cd neo-local.git
sudo make start

正常に起動できると下記のようなログが表示され、neo-pythonのプロンプトが表示されます。

[結果]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Pulling neo-cli-privatenet-1 ... done
Pulling postgres ... done
Pulling neo-scan ... done
Pulling neo-python ... done
Pulling neo-faucet ... done
Pulling autoheal ... done
[neo-local] Starting Docker containers...
Creating network "neo-local_inside" with the default driver
Creating network "neo-local_host-exposed" with driver "bridge"
Creating neo-cli-privatenet-1 ... done
Creating postgres ... done
Creating neo-scan ... done
Creating neo-faucet ... done
Creating neo-python ... done
Creating neo-local_autoheal ... done
[neo-local] Waiting for network.....................
[neo-local] Network running! 🎉
[neo-local] Attaching terminal to neo-python client

Open wallet (password: 'coz'): wallet open neo-privnet.wallet
Test smart contract: sc build_run /smart-contracts/wake_up_neo.py True False False 07 05 main

Privatenet useragent '/Neo:2.10.2/', nonce: 1923845013
[I 210618 22:55:07 Settings:331] Created 'Chains' directory at /root/.neopython/Chains
[I 210618 22:55:07 LevelDBBlockchain:112] Created Blockchain DB at /root/.neopython/Chains/privnet
[I 210618 22:55:07 NotificationDB:73] Created Notification DB At /root/.neopython/Chains/privnet_notif
NEO cli. Type 'help' to get started


neo>

neo-local停止

neo-localを終了するためには、一旦neo-pythonのプロンプトを終了してから、neo-local停止コマンドを実行します。

[コマンド]

1
2
quit
sudo make stop

正常に停止できると下記のようなログが表示されます。

[結果]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
[neo-local] Stopping Docker containers...
Stopping neo-local_autoheal ... done
Stopping neo-faucet ... done
Stopping neo-python ... done
Stopping neo-scan ... done
Stopping postgres ... done
Stopping neo-cli-privatenet-1 ... done
Removing neo-local_autoheal ... done
Removing neo-faucet ... done
Removing neo-python ... done
Removing neo-scan ... done
Removing postgres ... done
Removing neo-cli-privatenet-1 ... done
Removing network neo-local_inside
Removing network neo-local_host-exposed
[neo-local] Done 🎉

以上で、NEOブロックチェーンを試せる環境が整いました。

次回は、neo-pythonのプロンプトでいろいろとコマンドを実行してみます。

NEOブロックチェーン(1) - 事前準備

NEOはブロックチェーンプロジェクトの1つです。

今回からNEO上での分散型アプリケーション(dApps)を構築するための環境構築と、簡単なスマートコントラクトをPythonで作成する記事を書いていきます。

環境としてUbuntu20.04を想定しています。

事前準備

NEOブロックチェーンを構築するために次の3つが必要となります。

  • Git
  • Docker
  • Docker Compose

Gitインストール

次のコマンドを実行しgitをインストールします。

[コマンド]

1
sudo apt-get install git

インストールが正常に終了したら、以下のコマンドでgitバージョンを確認します。

[コマンド]

1
git --version

[結果]

1
git version 2.25.1

Dockerインストール

Dockerをインストールします。

[コマンド]

1
2
3
4
5
6
sudo apt-get update
sudo apt-get install -y apt-transport-https ca-certificates curl software-properties-common
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
sudo apt-key fingerprint 0EBFCD88
sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable"
sudo apt-get install docker-ce docker-ce-cli containerd.io

インストールが正常に終了したら、以下のコマンドでdockerバージョンを確認します。

[コマンド]

1
sudo docker version

[結果]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Client: Docker Engine - Community
Version: 20.10.7
API version: 1.41
Go version: go1.13.15
Git commit: f0df350
Built: Wed Jun 2 11:56:38 2021
OS/Arch: linux/amd64
Context: default
Experimental: true

Server: Docker Engine - Community
Engine:
Version: 20.10.7
API version: 1.41 (minimum version 1.12)
Go version: go1.13.15
Git commit: b0f5bc3
Built: Wed Jun 2 11:54:50 2021
OS/Arch: linux/amd64
Experimental: false
containerd:
Version: 1.4.6
GitCommit: d71fcd7d8303cbf684402823e425e9dd2e99285d
runc:
Version: 1.0.0-rc95
GitCommit: b9ee9c6314599f1b4a7f497e1f1f856fe433d3b7
docker-init:
Version: 0.19.0
GitCommit: de40ad0

Docker Composeインストール

Docker Composeをインストールします。

[コマンド]

1
2
3
sudo curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
sudo chmod +x /usr/local/bin/docker-compose
sudo ln -s /usr/local/bin/docker-compose /usr/bin/docker-compose

インストールが正常に終了したら、以下のコマンドでDocker Composeバージョンを確認します。

[コマンド]

1
docker-compose --version

[結果]

1
docker-compose version 1.29.2, build 5becea4c

以上で事前準備は完了です。

次回は、NEOブロックチェーンを展開できるツールneo-localをインストールします。

カスタムGym環境作成(27) - 広げたマップを強化学習で攻略(学習率を深ぼり2回目)

今回も、学習率を調整して結果がどう変わるか見ていきたいと思います。

[広くしたマップイメージ]

学習率の微調整2回目

前回の結果より、学習率1.5付近の結果も比較良かったので、さらに学習率1.6から2.5の結果も確認してみます。

ソースの修正箇所は、26-35行目となります。

[ソース]

train7.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
# 警告を非表示
import os
import warnings
warnings.simplefilter('ignore')
import tensorflow as tf
tf.get_logger().setLevel("ERROR")

import gym
from env7 import MyEnv

from stable_baselines.common.vec_env import DummyVecEnv
#from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor

# ログフォルダの作成
log_dir = './logs/'
os.makedirs(log_dir, exist_ok=True)

# 環境の生成
env = MyEnv()
env = Monitor(env, log_dir, allow_early_resets=True)
env = DummyVecEnv([lambda: env])

# モデルの生成
model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=1.6)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=1.7)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=1.8)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=1.9)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=2.0)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=2.1)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=2.2)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=2.3)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=2.4)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=2.5)

# モデルの学習
model.learn(total_timesteps=128000)

# モデルの保存
model.save('model7')

# モデルのテスト
state = env.reset()
total_reward = 0
while True:
# 環境の描画
env.render()

# モデルの推論
action, _ = model.predict(state)

# 1ステップの実行
state, reward, done, info = env.step(action)
total_reward += reward
print('reward:', reward, 'total_reward', total_reward)
print('-----------')

print('')
# エピソード完了
if done:
# 環境の描画
print('total_reward:', total_reward)
break

学習率を変更しながら実行し、それぞれの最終結果と平均報酬遷移(グラフ)を確認します。

[結果]

学習率 最終位置・最終報酬 平均報酬遷移
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5

学習率1.9と2.0は全エピソードの半分くらいゴールしているんですが、完全攻略はできていません。

もう一歩のような気もするんですが・・・😔

カスタムGym環境作成(26) - 広げたマップを強化学習で攻略(学習率を深ぼり)

今回は、学習率を微調整して結果がどう変わるか見ていきたいと思います。

[広くしたマップイメージ]

学習率の微調整

前回の結果より、学習率0.1~1.0付近でのゴール回数が多いように感じられました。

今回は学習率を0.5から1.5まで0.1ずつ増やしてその結果を確認していきたいと思います。

ソースの修正箇所は、26-36行目となります。

[ソース]

train7.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
# 警告を非表示
import os
import warnings
warnings.simplefilter('ignore')
import tensorflow as tf
tf.get_logger().setLevel("ERROR")

import gym
from env7 import MyEnv

from stable_baselines.common.vec_env import DummyVecEnv
#from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor

# ログフォルダの作成
log_dir = './logs/'
os.makedirs(log_dir, exist_ok=True)

# 環境の生成
env = MyEnv()
env = Monitor(env, log_dir, allow_early_resets=True)
env = DummyVecEnv([lambda: env])

# モデルの生成
model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=0.5)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=0.6)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=0.7)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=0.8)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=0.9)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=1.0)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=1.1)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=1.2)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=1.3)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=1.4)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=1.5)

# モデルの学習
model.learn(total_timesteps=128000)

# モデルの保存
model.save('model7')

# モデルのテスト
state = env.reset()
total_reward = 0
while True:
# 環境の描画
env.render()

# モデルの推論
action, _ = model.predict(state)

# 1ステップの実行
state, reward, done, info = env.step(action)
total_reward += reward
print('reward:', reward, 'total_reward', total_reward)
print('-----------')

print('')
# エピソード完了
if done:
# 環境の描画
print('total_reward:', total_reward)
break

学習率を変更しながら実行し、それぞれの最終結果と平均報酬遷移(グラフ)を確認します。

[結果]

学習率 最終位置・最終報酬 平均報酬遷移
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5

ゴール回数は増えているように見えますが、今回も攻略するまでには至りませんでした。

次回ももう少し学習率を調整を行ってみたいと思います。

カスタムGym環境作成(25) - 広げたマップを強化学習で攻略(報酬の簡易化)

前回は、学習アルゴリズムを変更(PPO2アルゴリズム使用)しましたがぜんぜんゴールできない結果となってしまいました。

学習アルゴリズムはACKTRに戻します。

[広くしたマップイメージ]

いろいろ対策を行いまして、こんがらがってきてしまったので今回は一旦報酬をシンプルにしてみたいと思います。

報酬の簡易化

具体的には、ゴール時の報酬を500にし、それ以外の報酬を-1とします。

報酬をシンプルにし、とにかくゴールできるように学習をしてほしいという狙いです。

修正箇所は、カスタムGym環境の99-120行目となります。

[ソース]

env7.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
import sys

import gym
import numpy as np
import gym.spaces

class MyEnv(gym.Env):
FIELD_TYPES = [
'S', # 0: スタート
'G', # 1: ゴール
' ', # 2: 平地
'山', # 3: 山(歩けない)
'☆', # 4: プレイヤー
'三', # 5: 橋
'川', # 6: 川
'林', # 7: 林
]
MAP = np.array([
[0, 3, 3, 3, 2, 3, 7, 7, 3, 2, 2, 3],
[2, 2, 2, 2, 2, 2, 7, 3, 2, 2, 2, 2],
[3, 2, 3, 2, 3, 7, 7, 2, 2, 2, 2, 3],
[3, 2, 2, 2, 7, 7, 6, 6, 3, 3, 2, 2],
[7, 7, 3, 2, 6, 6, 6, 3, 7, 7, 3, 3],
[3, 2, 3, 2, 3, 7, 3, 1, 2, 7, 2, 2],
[3, 7, 2, 2, 3, 2, 3, 3, 3, 3, 2, 7],
[2, 2, 3, 2, 2, 3, 2, 3, 2, 3, 3, 2],
[7, 3, 2, 7, 7, 2, 2, 2, 7, 6, 6, 7],
[2, 3, 2, 6, 6, 6, 2, 3, 2, 7, 2, 2],
[3, 3, 2, 3, 2, 3, 6, 2, 3, 2, 2, 3],
[7, 2, 2, 2, 3, 3, 6, 2, 7, 3, 2, 2],
])
#MAX_STEPS = 2000
MAX_STEPS = 5000

def __init__(self):
super().__init__()
# action_space, observation_space, reward_range を設定する
self.action_space = gym.spaces.Discrete(4) # 上下左右
self.observation_space = gym.spaces.Box(
low=0,
high=len(self.FIELD_TYPES),
shape=self.MAP.shape
)
self.reset()

def reset(self):
# 諸々の変数を初期化する
self.pos = self._find_pos('S')[0]
self.goal = self._find_pos('G')[0]
self.river = self._find_pos('川')
self.trees = self._find_pos('林')
self.start = self._find_pos('S')[0]
self.done = False
self.steps = 0
return self._observe()

def step(self, action):
# 1ステップ進める処理を記述。戻り値は observation, reward, done(ゲーム終了したか), info(追加の情報の辞書)
# 左上の座標を(0, 0)とする
if action == 0: # 右移動
next_pos = self.pos + [0, 1]
elif action == 1: # 左移動
next_pos = self.pos + [0, -1]
elif action == 2: # 下移動
next_pos = self.pos + [1, 0]
elif action == 3: # 上移動
next_pos = self.pos + [-1, 0]

if self._is_movable(next_pos):
self.pos = next_pos
moved = True
else:
moved = False

self.steps += 1
observation = self._observe()
reward = self._get_reward(self.pos, moved)
self.done = self._is_done()
return observation, reward, self.done, {}

def render(self, mode='console', close=False):
for row in self._observe():
for elem in row:
print(self.FIELD_TYPES[elem], end='')
print()

def _close(self):
pass

def _seed(self, seed=None):
pass

def _get_reward(self, pos, moved):
# 報酬を返す。
# - ゴールにたどり着くと 3000 ポイント
# - 川に入ったら -10 ポイント
# - 林に入ったら -3 ポイント
# - 1ステップごとに-1ポイント(できるだけ短いステップでゴールにたどり着きたい)
'''
if (self.start == pos).all(): # スタート位置に戻ってきたときのマイナス報酬
return -10
if moved:
if (self.goal == pos).all():
#return 3000
return 15000
for x in self.river:
if (x == pos).all():
return -10
for x in self.trees:
if (x == pos).all():
return -3
return -1
#return -3
else: # エージェントが動かなかった場合
return -10
'''
if (self.goal == pos).all():
return 500
else:
return -1

def _is_movable(self, pos):
# マップの中にいるか、歩けない場所にいないか
return (
0 <= pos[0] < self.MAP.shape[0]
and 0 <= pos[1] < self.MAP.shape[1]
and self.FIELD_TYPES[self.MAP[tuple(pos)]] != '山'
)

def _observe(self):
# マップにプレイヤーの位置を重ねて返す
observation = self.MAP.copy()
observation[tuple(self.pos)] = self.FIELD_TYPES.index('☆')
return observation

def _is_done(self):
# 最大で self.MAX_STEPS まで
if (self.pos == self.goal).all():
return True
elif self.steps > self.MAX_STEPS:
return True
else:
return False

def _find_pos(self, field_type):
return np.array(list(zip(*np.where(self.MAP == self.FIELD_TYPES.index(field_type)))))

学習率を変更しながら実行し、それぞれの最終結果と平均報酬遷移(グラフ)を確認します。

[結果]

学習率 最終位置・最終報酬 平均報酬遷移
0.01
0.05
0.1
0.5
1.0

学習完了(マップ攻略)とはいきませんでしたが、学習率0.1~1.0付近でのゴール回数が多いようです。

次回は、この学習率付近をもう少し深ぼりして調査したいと思います。

カスタムGym環境作成(23) - 広げたマップを強化学習で攻略(学習アルゴリム変更)

前回は、これまでの改善点をまとめましたが、まだ学習アルゴリズムの変更を試していないことに気づきました。

[広くしたマップイメージ]

というわけで今回は別の学習アルゴリズムを試してみます。

学習アルゴリズム変更

いままでは学習アルゴリズムとしてACKTRを使っていましたがPPO2に変更します。

修正箇所は12-13行目26-30行目となります。

[ソース]

train7.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
# 警告を非表示
import os
import warnings
warnings.simplefilter('ignore')
import tensorflow as tf
tf.get_logger().setLevel("ERROR")

import gym
from env7 import MyEnv

from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
#from stable_baselines import ACKTR
from stable_baselines.bench import Monitor

# ログフォルダの作成
log_dir = './logs/'
os.makedirs(log_dir, exist_ok=True)

# 環境の生成
env = MyEnv()
env = Monitor(env, log_dir, allow_early_resets=True)
env = DummyVecEnv([lambda: env])

# モデルの生成
model = PPO2('MlpPolicy', env, verbose=1, learning_rate=0.01)
#model = PPO2('MlpPolicy', env, verbose=1, learning_rate=0.05)
#model = PPO2('MlpPolicy', env, verbose=1, learning_rate=0.1)
#model = PPO2('MlpPolicy', env, verbose=1, learning_rate=0.5)
#model = PPO2('MlpPolicy', env, verbose=1, learning_rate=1.0)

# モデルの学習
model.learn(total_timesteps=128000)

# モデルの保存
model.save('model7')

# モデルのテスト
state = env.reset()
total_reward = 0
while True:
# 環境の描画
env.render()

# モデルの推論
action, _ = model.predict(state)

# 1ステップの実行
state, reward, done, info = env.step(action)
total_reward += reward
print('reward:', reward, 'total_reward', total_reward)
print('-----------')

print('')
# エピソード完了
if done:
# 環境の描画
print('total_reward:', total_reward)
break

学習率を変更しながら実行し、それぞれの最終結果と平均報酬遷移(グラフ)を確認します。

[結果]

学習率 最終位置・最終報酬 平均報酬遷移
0.01
0.05
0.1
0.5
1.0

ほとんどゴール地点から動かず、全くゴールまでたどり着いていません。

このカスタム環境にはPPO2アルゴリズムは向いていないようです。

一旦学習アルゴリズムはACKTRに戻して、次回は別の改善を行いたいと思います。

カスタムGym環境作成(22) - 広げたマップを強化学習で攻略(改善点まとめ)

これまで広げたマップに対していろいろ改善を行ってきましたが、まだ完全攻略するに至っていません。

[広くしたマップイメージ]

今後の戦略を練るために、一旦これまでの改善内容をまとめたいと思います。

改善点まとめ

  1. エージェントが動かない場合のマイナス報酬を増やす。
    エージェントが動かないステップが多かったので、エージェントが動かない場合のマイナス報酬を増やしてみました。(-1 ⇒ -10)

  2. スタート地点に戻ったときの報酬を設定。
    エージェントがスタート地点に戻った時の報酬を設定していなかったので、-10というマイナス報酬を設定しました。

  3. ゴール時の報酬をアップ。
    最終報酬がプラスになることがほとんどなかったので、ゴール時の報酬をアップさせました。(3000 ⇒ 15000)

  4. 学習回数を増やす。
    回数は少なめですがゴールすることあったので、もう少し頑張れば攻略できるのではないかと思い学習回数を5倍に増やしてみました。(128000 ⇒ 128000×5)

次回は別の改善を行い完全攻略を目指します。

カスタムGym環境作成(21) - 広げたマップを強化学習で攻略(学習回数を増やす)

前回、広げたマップに対してゴールしたときの報酬を増やみましたが、ほとんどゴールにたどり着くことができませんでした。

[広くしたマップイメージ]

今回は単純に学習回数を増やして、攻略を目指します。

学習回数を増やす

これまでの改善で、(たまたまかもしれませんが)何回かはゴールすることもあるようなのでもう少し学習回数を増やせば攻略できるのではないか・・・と考えました。

そこで今回は単純に学習回数をこれまでの5倍に増やしてみます。

修正箇所は32行目となります。

[ソース]

train7.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
# 警告を非表示
import os
import warnings
warnings.simplefilter('ignore')
import tensorflow as tf
tf.get_logger().setLevel("ERROR")

import gym
from env7 import MyEnv

from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor

# ログフォルダの作成
log_dir = './logs/'
os.makedirs(log_dir, exist_ok=True)

# 環境の生成
env = MyEnv()
env = Monitor(env, log_dir, allow_early_resets=True)
env = DummyVecEnv([lambda: env])

# モデルの生成
model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=0.01)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=0.05)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=0.1)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=0.5)
#model = ACKTR('MlpPolicy', env, verbose=1, learning_rate=1.0)

# モデルの学習
model.learn(total_timesteps=128000*5)

# モデルの保存
model.save('model7')

# モデルのテスト
state = env.reset()
total_reward = 0
while True:
# 環境の描画
env.render()

# モデルの推論
action, _ = model.predict(state)

# 1ステップの実行
state, reward, done, info = env.step(action)
total_reward += reward
print('reward:', reward, 'total_reward', total_reward)
print('-----------')

print('')
# エピソード完了
if done:
# 環境の描画
print('total_reward:', total_reward)
break

前回と同じように学習率を変更しながら実行し、それぞれの最終結果と平均報酬遷移(グラフ)を確認します。

[結果]

学習率 最終位置・最終報酬 平均報酬遷移
0.01
0.05
0.1
0.5
1.0

どの学習率でも同じような結果となりました。

ゴールまでたどり着く(最終報酬がプラスになる)ことは何度もあるのですが、その状態が続くことはありません。

つまりきちんと学習できていません。

行動報酬や学習回数を調整してきましたが、もしかしたら別の対策(切り口)が必要なのかもしれません。

次回は一旦これまでの改善点をまとめたいと思います。