AnyTrading - Yahooから為替データ取得してAnyTrading用に加工

December 28, 2020

今まではビットコインのデータで検証を行ってきましたが、とても成績のいい学習済みモデルがあったので為替データを使って検証したいと思います。

まずは前準備として、為替データを取得しAnyTrading用に加工します。

為替データの取得はPythonのライブラリを使うと簡単にできます。

インストール

下記のコマンドを実行しpandas_datareaderというライブラリをインストールします。

[インストールコマンド]

1	pip install pandas_datareader

為替データの取得

為替データを取得するソースは下記の通りです。

USDJPYの１日足データを2010年から2020年までの10年分取得しています。

ファイル出力するときに、AnyTrading用にデータを整形しています。

[ソース]

import pandas_datareader.data as pdr
import datetime

data = pdr.get_data_yahoo('JPY=X', start='2010-01-01', end='2021-01-01')

with open('(AnyTradingインストール先フォルダ)/datasets/data/FOREX_EURUSD_1H_ASK.csv', 'w') as f:
    f.write('Time,Open,High,Low,Close,Volume\n')
    for i in range(len(data.index)):
        f.write('{:%m.%d.%Y} 00:00:00.000,{:.2f},{:.2f},{:.2f},{:.2f},0\n'.format(
                data.index[i], data.Open[i], data.High[i], data.Low[i], data.Close[i]))

アカウントやアクセスキーを準備することなく、為替データが取得できるのでとても便利ですね。

次回はこのデータを使って、ビットコインで好成績を叩き出した学習モデルの検証を行います。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（４番目再検証）

December 27, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの４番目の学習済みモデルが１６勝１敗ととびぬけた好成績だったので再検証してみます。

ソース

いつもは５０日ずつデータを移動しながら３０回検証していますが、今回は２０日ずつ移動しながら３０回検証を行います。（２．５倍の検証結果がでることになります。）

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

# 勝敗をカウントする
def count(lst):
    cnt_win = 0
    cnt_lose = 0
    for x in lst:
        if x > 0:
            cnt_win += 1
        else:
            cnt_lose += 1

    return cnt_win, cnt_lose

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])  # info: {'total_reward': 8610370000.0, 'total_profit': 1.7844206334206751, 'position': 1} 8610370000.0
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

cnt_win = 0
cnt_lose = 0
#for move_idx in range(0, 801, 50):
for move_idx in range(0, 801, 20):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   510,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(30):
        labels.append('{}'.format(i))
        simulation(4, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    #print(means, np.average(means), count(means))
    cnt = count(means)
    plt.title('[Average]{:,.0f}  [Win]{} [Lose]{}'.format(np.average(means), cnt[0], cnt[1]))

    plt.savefig('trading{:03d}.png'.format(move_idx))

    if cnt[0] > cnt[1]:
        cnt_win += 1
    else:
        cnt_lose += 1

print('{}勝 {}敗'.format(cnt_win, cnt_lose))

実行結果

実行結果は次のようになりました。

勝敗を集計すると３７勝４敗となりました。

やはりかなりの好成績です。実運用を試してみたいと思うほどです。

次回はこの学習済みモデルをビットコインではないほかのデータで検証してみたいと思います。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（総括）

December 26, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのすべてのモデルに対して、３０回連続で投資検証を行った結果をまとめてみます。

結果

学習済みモデル	勝敗数
０番目	５勝１１敗１分
１番目	７勝１０敗
２番目	４勝１２敗１分
３番目	１１勝６敗
４番目	１６勝１敗
５番目	７勝１０敗
６番目	７勝１０敗
７番目	７勝１０敗
８番目	９勝８敗
９番目	７勝１０敗

同じパラメータを使って学習させてもその結果がここまで変わるものなんですね。

強化学習の結果を確認するためには、複数のモデルを作成し複数回のテストを行って検証する必要があるのを痛感しました。

負け越すことが多かったのですが、そんな中４番目の結果があまりにも優秀すぎます。

次回はこの４番目の学習モデルを別の方法で検証したいと思います。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（９番目）

December 25, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの９番目の学習済みモデルに対して、３０回連続で投資検証を行います。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

# 勝敗をカウントする
def count(lst):
    cnt_win = 0
    cnt_lose = 0
    for x in lst:
        if x > 0:
            cnt_win += 1
        else:
            cnt_lose += 1

    return cnt_win, cnt_lose

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])  # info: {'total_reward': 8610370000.0, 'total_profit': 1.7844206334206751, 'position': 1} 8610370000.0
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

cnt_win = 0
cnt_lose = 0
for move_idx in range(0, 801, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   510,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(30):
        labels.append('{}'.format(i))
        simulation(9, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    #print(means, np.average(means), count(means))
    cnt = count(means)
    plt.title('[Average]{:,.0f}  [Win]{} [Lose]{}'.format(np.average(means), cnt[0], cnt[1]))

    plt.savefig('trading{:03d}.png'.format(move_idx))

    if cnt[0] > cnt[1]:
        cnt_win += 1
    else:
        cnt_lose += 1

print('{}勝 {}敗'.format(cnt_win, cnt_lose))

実行結果

実行結果は次のようになりました。

勝敗を集計すると７勝１０敗となりました。

12月15日に作成した１０種類の学習済みモデルで何度もみた勝敗結果となりました。

次回はこれまで行った検証結果１０回分を総括したいと思います。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（８番目）

December 24, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの８番目の学習済みモデルに対して、３０回連続で投資検証を行います。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

# 勝敗をカウントする
def count(lst):
    cnt_win = 0
    cnt_lose = 0
    for x in lst:
        if x > 0:
            cnt_win += 1
        else:
            cnt_lose += 1

    return cnt_win, cnt_lose

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])  # info: {'total_reward': 8610370000.0, 'total_profit': 1.7844206334206751, 'position': 1} 8610370000.0
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

cnt_win = 0
cnt_lose = 0
for move_idx in range(0, 801, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   510,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(30):
        labels.append('{}'.format(i))
        simulation(8, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    #print(means, np.average(means), count(means))
    cnt = count(means)
    plt.title('[Average]{:,.0f}  [Win]{} [Lose]{}'.format(np.average(means), cnt[0], cnt[1]))

    plt.savefig('trading{:03d}.png'.format(move_idx))

    if cnt[0] > cnt[1]:
        cnt_win += 1
    else:
        cnt_lose += 1

print('{}勝 {}敗'.format(cnt_win, cnt_lose))

実行結果

実行結果は次のようになりました。

勝敗を集計すると９勝８敗となりました。

トータルイーブンといったところですが、これまでは負け越しが多かったのでまだマシな結果だと思います。

次回はまた別の学習済みモデルを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（７番目）

December 23, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの７番目の学習済みモデルに対して、３０回連続で投資検証を行います。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

# 勝敗をカウントする
def count(lst):
    cnt_win = 0
    cnt_lose = 0
    for x in lst:
        if x > 0:
            cnt_win += 1
        else:
            cnt_lose += 1

    return cnt_win, cnt_lose

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])  # info: {'total_reward': 8610370000.0, 'total_profit': 1.7844206334206751, 'position': 1} 8610370000.0
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

cnt_win = 0
cnt_lose = 0
for move_idx in range(0, 801, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   510,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(30):
        labels.append('{}'.format(i))
        simulation(7, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    #print(means, np.average(means), count(means))
    cnt = count(means)
    plt.title('[Average]{:,.0f}  [Win]{} [Lose]{}'.format(np.average(means), cnt[0], cnt[1]))

    plt.savefig('trading{:03d}.png'.format(move_idx))

    if cnt[0] > cnt[1]:
        cnt_win += 1
    else:
        cnt_lose += 1

print('{}勝 {}敗'.format(cnt_win, cnt_lose))

実行結果

実行結果は次のようになりました。

勝敗を集計すると７勝１０敗となりました。

前回結果、前々回ととまったく同じ勝率です。

どうやら今回学習したモデルの平均値はこのあたりの勝率に収束しそうです。（前回と同じコメントとなってしまいました・・・）

次回はまた別の学習済みモデルを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（６番目）

December 22, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの６番目の学習済みモデルに対して、３０回連続で投資検証を行います。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

# 勝敗をカウントする
def count(lst):
    cnt_win = 0
    cnt_lose = 0
    for x in lst:
        if x > 0:
            cnt_win += 1
        else:
            cnt_lose += 1

    return cnt_win, cnt_lose

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])  # info: {'total_reward': 8610370000.0, 'total_profit': 1.7844206334206751, 'position': 1} 8610370000.0
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

cnt_win = 0
cnt_lose = 0
for move_idx in range(0, 801, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   510,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(30):
        labels.append('{}'.format(i))
        simulation(6, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    #print(means, np.average(means), count(means))
    cnt = count(means)
    plt.title('[Average]{:,.0f}  [Win]{} [Lose]{}'.format(np.average(means), cnt[0], cnt[1]))

    plt.savefig('trading{:03d}.png'.format(move_idx))

    if cnt[0] > cnt[1]:
        cnt_win += 1
    else:
        cnt_lose += 1

print('{}勝 {}敗'.format(cnt_win, cnt_lose))

実行結果

実行結果は次のようになりました。

勝敗を集計すると７勝１０敗となりました。

前回結果とまったく同じ勝率です。

どうやら今回学習したモデルの平均値はこのあたりの勝率に収束しそうです。

次回はまた別の学習済みモデルを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（５番目）

December 21, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの５番目の学習済みモデルに対して、３０回連続で投資検証を行います。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

# 勝敗をカウントする
def count(lst):
    cnt_win = 0
    cnt_lose = 0
    for x in lst:
        if x > 0:
            cnt_win += 1
        else:
            cnt_lose += 1

    return cnt_win, cnt_lose

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])  # info: {'total_reward': 8610370000.0, 'total_profit': 1.7844206334206751, 'position': 1} 8610370000.0
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

cnt_win = 0
cnt_lose = 0
for move_idx in range(0, 801, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   510,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(30):
        labels.append('{}'.format(i))
        simulation(5, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    #print(means, np.average(means), count(means))
    cnt = count(means)
    plt.title('[Average]{:,.0f}  [Win]{} [Lose]{}'.format(np.average(means), cnt[0], cnt[1]))

    plt.savefig('trading{:03d}.png'.format(move_idx))

    if cnt[0] > cnt[1]:
        cnt_win += 1
    else:
        cnt_lose += 1

print('{}勝 {}敗'.format(cnt_win, cnt_lose))

実行結果

実行結果は次のようになりました。

勝敗を集計すると７勝１０敗となりました。

前回モデルはほぼ全勝だったのですが、今回はまた負け越しの結果となりました。

１記事あたり１モデルの投資検証を行っていますが、結果を把握しやすいように最終的には全１０学習済みモデルの結果一覧を作成しようかと考えています。

次回はまた別の学習済みモデルを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（４番目）

December 20, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの４番目の学習済みモデルに対して、３０回連続で投資検証を行います。

ソース

ソースは下記の通りです。

前回次の２点を改善しました。

期間ごとに平均収益と勝ち負け数をカウントしてグラフ上部に表示。
３０回投資での勝敗からその期間の勝ち負けを決める。
全期間の最終的な勝ち負け数をコンソールに表示。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

# 勝敗をカウントする
def count(lst):
    cnt_win = 0
    cnt_lose = 0
    for x in lst:
        if x > 0:
            cnt_win += 1
        else:
            cnt_lose += 1

    return cnt_win, cnt_lose

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])  # info: {'total_reward': 8610370000.0, 'total_profit': 1.7844206334206751, 'position': 1} 8610370000.0
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

cnt_win = 0
cnt_lose = 0
for move_idx in range(0, 801, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   510,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(30):
        labels.append('{}'.format(i))
        simulation(4, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    #print(means, np.average(means), count(means))
    cnt = count(means)
    plt.title('[Average]{:,.0f}  [Win]{} [Lose]{}'.format(np.average(means), cnt[0], cnt[1]))

    plt.savefig('trading{:03d}.png'.format(move_idx))

    if cnt[0] > cnt[1]:
        cnt_win += 1
    else:
        cnt_lose += 1

print('{}勝 {}敗'.format(cnt_win, cnt_lose))

実行結果

実行結果は次のようになりました。

勝敗を集計すると１６勝１敗となりました。

これまでのさえない検証結果から一転して、高投資パフォーマンスとなりました。

今回作成した学習済みモデルはそれぞれの投資結果の差が大きくておもしろいです。

次回はまた別の学習済みモデルを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（３番目）※処理改善あり

December 19, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの３番目の学習済みモデルに対して、３０回連続で投資検証を行います。

ソース

ソースは下記の通りです。

今回は次の２点を改善しています。

期間ごとに平均収益と勝ち負け数をカウントしてグラフ上部に表示。
３０回投資での勝敗からその期間の勝ち負けを決める。
全期間の最終的な勝ち負け数をコンソールに表示。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

# 勝敗をカウントする
def count(lst):
    cnt_win = 0
    cnt_lose = 0
    for x in lst:
        if x > 0:
            cnt_win += 1
        else:
            cnt_lose += 1

    return cnt_win, cnt_lose

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])  # info: {'total_reward': 8610370000.0, 'total_profit': 1.7844206334206751, 'position': 1} 8610370000.0
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

cnt_win = 0
cnt_lose = 0
for move_idx in range(0, 801, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   510,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(30):
        labels.append('{}'.format(i))
        simulation(3, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    #print(means, np.average(means), count(means))
    cnt = count(means)
    plt.title('[Average]{:,.0f}  [Win]{} [Lose]{}'.format(np.average(means), cnt[0], cnt[1]))

    plt.savefig('trading{:03d}.png'.format(move_idx))

    if cnt[0] > cnt[1]:
        cnt_win += 1
    else:
        cnt_lose += 1

print('{}勝 {}敗'.format(cnt_win, cnt_lose))