AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（２番目）

December 18, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの２番目の学習済みモデルに対して、５０回連続で投資検証を行います。

一度に全期間の投資結果を確認します。処理内容はソースをご確認下さい。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

for move_idx in range(0, 801, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   510,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(50):
        labels.append('{}'.format(i))
        simulation(2, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    plt.savefig('trading{:03d}.png'.format(move_idx))

実行結果

実行結果は次のようになりました。

勝敗を集計すると４勝１２敗１分となりました。

かなりの負け越しですね。。。やっぱり学習パラメータの調整はむずかしいものです。

学習パラメータの組み合わせをまとめて実行し、投資パフォーマンスも一気に評価・・・・という処理を作成したほうがよいかもしれません。

ただ現状の処理でも２０分程度かかっているので、一回の検証に１日かそれ以上かかってしまうかもしれません・・・(^_^;)

次回は別の学習済みモデルを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（１番目）

December 17, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの１番目の学習済みモデルに対して、５０回連続で投資検証を行います。

一度に全期間の投資結果を確認します。処理内容はソースをご確認下さい。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

for move_idx in range(0, 801, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   510,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(50):
        labels.append('{}'.format(i))
        simulation(1, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    plt.savefig('trading{:03d}.png'.format(move_idx))

実行結果

実行結果は次のようになりました。

勝敗を集計すると７勝１０敗となりました。

最初に７連勝し、その後１０連敗とかなり極端な結果となりました。

学習データと検証データの被りが少ないと投資パフォーマンスが落ちてしまうということでしょうか。。。それだと実運用はとても無理ですね。

次回は別の学習済みモデルを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（０番目）

December 16, 2020

12月15日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの０番目の学習済みモデルに対して、５０回連続で投資検証を行います。

一度に全期間の投資結果を確認します。処理内容はソースをご確認下さい。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

for move_idx in range(0, 801, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   510,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(50):
        labels.append('{}'.format(i))
        simulation(0, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    plt.savefig('trading{:03d}.png'.format(move_idx))

実行結果

実行結果は次のようになりました。

勝敗を集計すると５勝１１敗１分となりました。

だいぶ負け越してしまいました。

まだ１モデル目の検証ですが、今回の学習したモデルもダメかもしれません。。。

次回は別の学習済みモデルを検証していきます。

AnyTrading - 学習済みモデルの作成（ACKTR）

December 15, 2020

今回はまた新しい学習済みモデルを作成していきます。

学習済みアルゴリズムはACKTRのままで、パラメータを変更します。

変更したパラメータは次の一覧の通りです。

パラメータ	設定値
参照すべき直前のデータ数(window_size)	30⇒10⇒10(そのまま)
学習データの開始位置(start_idx)	100⇒10⇒10(そのまま)
学習データの終了位置(end_idx)	300⇒110⇒510(400日延長)
訓練ステップ数(timesteps)	128000
学習アルゴリズム	ACKTR

今回は学習データ数だけ400日分延長してみました。
参照する直前データは10、学習データの開始位置はそのままです。

学習済みモデルの作成

学習済みモデルを作成するコードは下記の通りになります。

パラメータの内容は、コメントしていますのでご参照下さい。

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

def simulation(i, prm):
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)

    idx1 = prm['start_idx']
    idx2 = prm['end_idx']

    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(idx1, idx2), window_size=prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)

    # シードの指定
    env.seed(0)
    set_global_seeds(0)

    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])

    # モデルの生成
    #model = PPO2('MlpPolicy', env, verbose=1)
    model = ACKTR('MlpPolicy', env, verbose=1)

    # モデルの学習
    model.learn(total_timesteps=prm['timesteps'])

    # モデルの保存
    model.save('model{}'.format(i))

prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
       'start_idx'  :    10,      #start_idx 学習データの開始位置
       'end_idx'    :   510,      #end_idx 学習データの終了位置
       'timesteps'  :128000  }    #timesteps 訓練ステップ数
for i in range(10):
    simulation(i, prm)

上記コードを実行すると、model0.zipからmodel9.zipの１０種類の学習済みモデルが作成されます。

次回からはこのモデルでどのような投資成績を出すことができるのかを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（９番目）

December 14, 2020

12月05日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの９番目の学習済みモデルに対して、５０回連続で投資検証を行います。

一度に全期間の投資結果を確認します。処理内容はソースをご確認下さい。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

for move_idx in range(0, 1201, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   110,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(50):
        labels.append('{}'.format(i))
        simulation(9, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    plt.savefig('trading{:03d}.png'.format(move_idx))

実行結果

実行結果は次のようになりました。

勝敗を集計すると１５勝９敗１分となりました。

今までの結果と同様６０％ほどの勝率となっています。

全１０学習済みモデルの検証を完了しました。

ほとんど６０％前後の勝率モデルだったと思いますが、この勝率を８０％以上・・・できれば９０％を超えるまでパラメータを調整したいものです。

次回はまた新たにパラメータを変更して学習済みモデルを作成してみます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（８番目）

December 13, 2020

12月05日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの８番目の学習済みモデルに対して、５０回連続で投資検証を行います。

一度に全期間の投資結果を確認します。処理内容はソースをご確認下さい。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

for move_idx in range(0, 1201, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   110,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(50):
        labels.append('{}'.format(i))
        simulation(8, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    plt.savefig('trading{:03d}.png'.format(move_idx))

実行結果

実行結果は次のようになりました。

勝敗を集計すると１５勝１０敗０分となりました。

今までの結果と同様６０％ほどの勝率となっています。

今回設定したパラメータで作成した学習済みモデルは、どうやらこの「勝率６０％」程度の投資パフォーマンスとなるようです。

次回は別の学習済みモデルを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（７番目）

December 12, 2020

12月05日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの７番目の学習済みモデルに対して、５０回連続で投資検証を行います。

一度に全期間の投資結果を確認します。処理内容はソースをご確認下さい。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

for move_idx in range(0, 1201, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   110,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(50):
        labels.append('{}'.format(i))
        simulation(7, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    plt.savefig('trading{:03d}.png'.format(move_idx))

実行結果

実行結果は次のようになりました。

勝敗を集計すると１３勝１２敗０分となりました。

トータルイーブンといった感じです。

次回は別の学習済みモデルを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（６番目）

December 11, 2020

12月05日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの６番目の学習済みモデルに対して、５０回連続で投資検証を行います。

一度に全期間の投資結果を確認します。処理内容はソースをご確認下さい。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

for move_idx in range(0, 1201, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   110,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(50):
        labels.append('{}'.format(i))
        simulation(6, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    plt.savefig('trading{:03d}.png'.format(move_idx))

実行結果

実行結果は次のようになりました。

勝敗を集計しますと１５勝１０敗０分となりました。

ちょうど６０％の勝率といったところでしょうか、悪くないですね。

これまでは勝率だけ確認してきましたが、収益率での判定も把握しやすい結果を表示するように改善する予定です。

次回は別の学習済みモデルを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（５番目）

December 10, 2020

12月05日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの５番目の学習済みモデルに対して、５０回連続で投資検証を行います。

一度に全期間の投資結果を確認します。処理内容はソースをご確認下さい。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

for move_idx in range(0, 1201, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   110,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(50):
        labels.append('{}'.format(i))
        simulation(5, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    plt.savefig('trading{:03d}.png'.format(move_idx))

実行結果

実行結果は次のようになりました。

勝敗を集計しますと１４勝１０敗１分となりました。

最高勝率の前回結果ほどではありませんでしたが、そこそこの勝ち越し結果となりました。

（毎回「１モデルに対する全期間」を検証していますが、「全モデルの全期間」を検証したほうが設定した学習パラメータに対する投資パフォーマンスが分かりやすような気がしています。現在、その処理やグラフを検討中です。）

次回は別の学習済みモデルを検証していきます。

AnyTrading - ビットコイン投資を強化学習で実行　ACKTR編（４番目）

December 9, 2020

12月05日の記事にてアルゴリズムACKTRで新たにビットコインの学習済みモデルを１０種類作成しました。

そのうちの４番目の学習済みモデルに対して、５０回連続で投資検証を行います。

一度に全期間の投資結果を確認します。処理内容はソースをご確認下さい。

ソース

ソースは下記の通りです。

[ソース]

import os, gym
import datetime
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines import ACKTR
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

import numpy as np
import matplotlib.pyplot as plt

def simulation(i, prm):
    global means
    # ログフォルダの生成
    log_dir = './logs/'
    os.makedirs(log_dir, exist_ok=True)
    # 環境の生成
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'],
                                            prm['end_idx']),
                                            window_size = prm['window_size'])
    env = Monitor(env, log_dir, allow_early_resets=True)
    # シードの指定
    env.seed(0)
    set_global_seeds(0)
    # ベクトル化環境の生成
    env = DummyVecEnv([lambda: env])
    # モデルの読み込み
    # model = PPO2.load('model{}'.format(i))
    model = ACKTR.load('model{}'.format(i))
    # モデルのテスト
    env = gym.make('forex-v0', frame_bound=(prm['start_idx'] + prm['move_idx'],
                                            prm['end_idx']   + prm['move_idx']),
                                            window_size = prm['window_size'])
    env.seed(0)
    state = env.reset()
    while True:
        # 行動の取得
        action, _ = model.predict(state)    # 0 or 1
        # 1ステップ実行
        state, reward, done, info = env.step(action)
        # エピソード完了
        if done:
            print('info:', info, info['total_reward'])
            means.append(info['total_reward'])
            break
    # グラフのプロット
    plt.cla()
    env.render_all()

for move_idx in range(0, 1201, 50):
    labels = []
    means = []
    prm = {'window_size':    10,      #window_size 参照すべき直前のデータ数
           'start_idx'  :    10,      #start_idx 学習データの開始位置
           'end_idx'    :   110,      #end_idx 学習データの終了位置
           'move_idx'   :   move_idx} #学習データからの移動分。移動したものを検証データとする。
    for i in range(50):
        labels.append('{}'.format(i))
        simulation(4, prm)

    x = np.arange(len(labels))
    width = 0.35

    fig, ax = plt.subplots()

    rect = ax.bar(x, means, width)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)

    plt.savefig('trading{:03d}.png'.format(move_idx))