AnyTrading - FXトレードを強化学習で実行④

July 20, 2020

AnyTrading は、FXや株式のトレーディングアルゴリズムのための強化学習環境です。

学習回数を変更

前回はデータ範囲を変えてみましたが今回は、学習回数を２倍に変えてみます。

その他の条件は前回同様です。

import os, gym
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

# ログフォルダの生成
log_dir = './logs/'
os.makedirs(log_dir, exist_ok=True)

# 環境の生成
env = gym.make('forex-v0', frame_bound=(30, 5000), window_size=30)
env = Monitor(env, log_dir, allow_early_resets=True)

# シードの指定
env.seed(0)
set_global_seeds(0)

# ベクトル化環境の生成
env = DummyVecEnv([lambda: env])

# モデルの生成
model = PPO2('MlpPolicy', env, verbose=1)
#model = ACKTR('MlpPolicy', env, verbose=1)

# モデルの読み込み
# model = PPO2.load('trading_model')

# モデルの学習
model.learn(total_timesteps=128000 * 2)

# モデルの保存
model.save('trading_model')

# モデルのテスト
env = gym.make('forex-v0', frame_bound=(5000, 10000-30), window_size=30)
env.seed(0)
state = env.reset()
while True:
    # 行動の取得
    action, _ = model.predict(state)
    # 1ステップ実行
    state, reward, done, info = env.step(action)
    # エピソード完了
    if done:
        print('info:', info)
        break

# グラフのプロット
plt.cla()
env.render_all()
plt.show()

34行目 で学習回数を２倍に変更しています。

学習回数を変更してFXトレードを実行

上記コードを実行すると次のような結果になります。

[コンソール出力]

1	info: {'total_reward': 156.3000000000536, 'total_profit': 0.9316893368425513, 'position': 1}

前回の結果と比較すると、FX売買結果は次のように変化しました。

累積報酬（total_reward）
359.6　→　156.3
純利益（total_profit）
0.94　→　0.93

累積報酬が半分以下となり、純利益はほとんど変わりませんでした。

学習回数を３倍、４倍に変更してみても成績はよくなりませんでした。

必要以上に学習回数を増やしても、意味がないようです。

AnyTrading - FXトレードを強化学習で実行③

July 19, 2020

AnyTrading は、FXや株式のトレーディングアルゴリズムのための強化学習環境です。

前回ご紹介した強化学習FX売買の条件を変えて実行してみます。

データの範囲を変更

前回はデータ範囲が、訓練データと検証データともに (50, 1000) でしたが、今回は訓練データ範囲を (30, 5000) 、検証データ範囲を (5000, 10000-30) としてみました。

データ量を約５倍にし、訓練データと検証データの範囲を分けた場合に、どのように成績が変化するのかを確認するのが目的です。

学習アルゴリズムや学習回数は前回同様です。

import os, gym
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

# ログフォルダの生成
log_dir = './logs/'
os.makedirs(log_dir, exist_ok=True)

# 環境の生成
env = gym.make('forex-v0', frame_bound=(30, 5000), window_size=30)
env = Monitor(env, log_dir, allow_early_resets=True)

# シードの指定
env.seed(0)
set_global_seeds(0)

# ベクトル化環境の生成
env = DummyVecEnv([lambda: env])

# モデルの生成
model = PPO2('MlpPolicy', env, verbose=1)
#model = ACKTR('MlpPolicy', env, verbose=1)

# モデルの読み込み
# model = PPO2.load('trading_model')

# モデルの学習
model.learn(total_timesteps=128000)

# モデルの保存
model.save('trading_model')

# モデルのテスト
env = gym.make('forex-v0', frame_bound=(5000, 10000-30), window_size=30)
env.seed(0)
state = env.reset()
while True:
    # 行動の取得
    action, _ = model.predict(state)
    # 1ステップ実行
    state, reward, done, info = env.step(action)
    # エピソード完了
    if done:
        print('info:', info)
        break

# グラフのプロット
plt.cla()
env.render_all()
plt.show()

16行目 で訓練データの範囲を変更し、40行目 で検証データの範囲を変更しています。

データ範囲を変更してFXトレードを実行

上記コードを実行すると次のような結果になります。

[コンソール出力]

1	{'total_reward': 359.60000000002213, 'total_profit': 0.9436579094404297, 'position': 1}

前回の結果と比較すると、FX売買結果は次のように変化しました。

累積報酬（total_reward）
-100　→　359.6
純利益（total_profit）
0.92　→　0.94

累積報酬がかなり向上しましたが、純利益はほとんど変わりませんでした。

AnyTradingのソースを確認したところ、投資費用としてユニットごとに 0.0003 が差し引かれたものが純利益として計算されるようです。

AnyTrading - FXトレードを強化学習で実行②

July 18, 2020

AnyTrading は、FXや株式のトレーディングアルゴリズムのための強化学習環境です。

前回はランダムでのFX売買を行いましたが、今回は学習してからFX売買を行ってみます。学習アルゴリズムは PPO2 を使います。

強化学習を行うコード

強化学習アルゴリズム PPO2 を使ってFX売買を実行するサンプルコードは次のようになります。

import os, gym
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
from stable_baselines.bench import Monitor
from stable_baselines.common import set_global_seeds

# ログフォルダの生成
log_dir = './logs/'
os.makedirs(log_dir, exist_ok=True)

# 環境の生成
env = gym.make('forex-v0', frame_bound=(50, 1000), window_size=30)
env = Monitor(env, log_dir, allow_early_resets=True)

# シードの指定
env.seed(0)
set_global_seeds(0)

# ベクトル化環境の生成
env = DummyVecEnv([lambda: env])

# モデルの生成
model = PPO2('MlpPolicy', env, verbose=1)
#model = ACKTR('MlpPolicy', env, verbose=1)

# モデルの読み込み
# model = PPO2.load('trading_model')

# モデルの学習
model.learn(total_timesteps=128000)

# モデルの保存
model.save('trading_model')

# モデルのテスト
env = gym.make('forex-v0', frame_bound=(50, 1000), window_size=30)
env.seed(0)
state = env.reset()
while True:
    # 行動の取得
    action, _ = model.predict(state)
    # 1ステップ実行
    state, reward, done, info = env.step(action)
    # エピソード完了
    if done:
        print('info:', info)
        break

# グラフのプロット
plt.cla()
env.render_all()
plt.show()

27行目で学習アルゴリズムPPO2を設定しています。

また、34行目で学習ステップ数を128000に設定し、45行目で学習済みモデルで次のアクションを決定しています。

PPO2で学習したモデルを使ってFXトレードを実行

上記コードを実行すると次のような結果になります。

[コンソール出力]

1	info: {'total_reward': -100.099999999994, 'total_profit': 0.9259919709534984, 'position': 1}

前回のランダム実行と比べると、今回の強化学習によるFX売買結果は次のようになりました。

累積報酬（total_reward）
-76　→　-100
純利益（total_profit）
0.98　→　0.92

ランダム実行より成績が落ちてしまいました。(;^_^A

ここからいろいろパラメータを変えて、成績の改善を目指していきます。

AnyTrading - FXトレードを強化学習で実行①

July 17, 2020

AnyTrading は、FXや株式のトレーディングアルゴリズムのための強化学習環境です。

パラメータやFXデータをいろいろと変えて、どこまで成績をあげていけるかを検証していきたいと思います。

今回は、AnyTrading をインストールし、ランダムでのFX売買を行い、その結果を確認してみます。

AnyTradingのインストール

AnyTradingの環境は下記のコマンドでインストールすることができます。

[コマンド]

1	pip install gym-anytrading

ランダム実行を行うコード

ランダム実行を行うコードは次の通りです。

import gym
import gym_anytrading
import matplotlib.pyplot as plt
from gym_anytrading.envs import TradingEnv, ForexEnv, StocksEnv, Actions, Positions
from gym_anytrading.datasets import FOREX_EURUSD_1H_ASK, STOCKS_GOOGL
from stable_baselines.common import set_global_seeds

# 環境を作成する
env = gym.make('forex-v0', frame_bound=(50, 100), window_size=10)

# シードの指定
env.seed(0)
set_global_seeds(0)

# ランダム行動による動作確認
state = env.reset()
while True:
    # 行動の取得
    action = env.action_space.sample()
    # 1ステップ実行
    state, reward, done, info = env.step(action)
    # エピソード完了
    if done:
        print('info:', info)
        break
# グラフのプロット
plt.cla()
env.render_all()
plt.show()

9行目のgym.makeのパラメータの意味は次の通りです。

env（Env型）
環境名。
df（DataFrame型）
独自のデータセット。
window_size（int型）
直近何フレームの情報を状態として利用するか。
frame_bound（tuple型）
データセット内の訓練範囲を開始行数と終了行数で指定。
unit_side（str型）
FXの取引を開始する側（ユーロ／ドルの場合は「left」でユーロ、「right」でドルを指定）。

ランダム実行

上記コードを実行すると次のような結果になります。

[コンソール出力]

1	info: {'total_reward': -76.1999999999996, 'total_profit': 0.9860980554685419, 'position': 0}

ランダム実行なので、結果は都度変わりますが今回は、累積報酬（total_reward）が -76 で、純利益（total_profit）が 0.98 となりました。

次回は学習してから、トレードを行うコードを試します。

Stable Baselines Zoo - 学習アルゴリズムACKTRでシークエスト（SeaquestNoFrameskip-v4）を攻略

July 16, 2020

インベーダーゲームで一番成績の良かった学習アルゴリズム ACKTR をいろいろな環境で実行してみます。

今回は シークエスト（SeaquestNoFrameskip-v4） を攻略します。

水中で敵を倒し人を救出するゲームで、シューティングの要素も含んでいます。

SeaquestNoFrameskip-v4を攻略

ACKTR の学習済みモデル(Stable Baselines Zoo提供)を使ってSeaquestNoFrameskip-v4を実行し、その様子を動画ファイルに出力します。

各オプションは以下の通りです。

環境(env)
SeaquestNoFrameskip-v4
学習アルゴリズム(algo)
ACKTR
ステップ数(n)
3000

[コマンド]

1	python3.7 -m utils.record_video --algo acktr --env SeaquestNoFrameskip-v4 -n 3000

実行結果は以下のようになりました。(Ubuntu 19.10で動作確認しています。)

頑張って左右を攻撃してはいますが、人を救出しようとはしていないようです。敵を攻撃しつつ人を救出するという２つの目的を最適化するのは難しいという事でしょうか。。。

Stable Baselines Zoo - 学習アルゴリズムACKTRでQバート（QbertNoFrameskip-v4）を攻略

July 15, 2020

インベーダーゲームで一番成績の良かった学習アルゴリズム ACKTR をいろいろな環境で実行してみます。

今回は Qバート（QbertNoFrameskip-v4） を攻略します。

この環境は主人公の「Qバート」を操作し、敵を避けてブロックの山をジャンプして色を付けていき、全てのブロックに色をつければステージクリアとなる環境です。

QbertNoFrameskip-v4を攻略

ACKTR の学習済みモデル(Stable Baselines Zoo提供)を使ってQbertNoFrameskip-v4を実行し、その様子を動画ファイルに出力します。

各オプションは以下の通りです。

環境(env)
QbertNoFrameskip-v4
学習アルゴリズム(algo)
ACKTR
ステップ数(n)
3000

[コマンド]

1	python3.7 -m utils.record_video --algo acktr --env QbertNoFrameskip-v4 -n 3000

実行結果は以下のようになりました。(Ubuntu 19.10で動作確認しています。)

敵をよけるのは苦手なようですが、３面までさくさくクリアすることを確認できました。

Stable Baselines Zoo - 学習アルゴリズムACKTRでピンポン（PongNoFrameskip-v4）を攻略

July 14, 2020

インベーダーゲームで一番成績の良かった学習アルゴリズム ACKTR をいろいろな環境で実行してみます。

今回は ピンポン（PongNoFrameskip-v4） を攻略します。この環境は画面左右に分かれてボールを打ち合うゲームとなります。

PongNoFrameskip-v4を攻略

ACKTR の学習済みモデル(Stable Baselines Zoo提供)を使ってPongNoFrameskip-v4を実行し、その様子を動画ファイルに出力します。

各オプションは以下の通りです。

環境(env)
PongNoFrameskip-v4
学習アルゴリズム(algo)
ACKTR
ステップ数(n)
3000

[コマンド]

1	python3.7 -m utils.record_video --algo acktr --env PongNoFrameskip-v4 -n 3000

実行結果は以下のようになりました。(Ubuntu 19.10で動作確認しています。)

画面左が対戦相手のコンピュータで画面右がACKTR学習済みモデルとなりますが、ACKTRの圧勝となりました。

ただ対戦相手のコンピュータが弱すぎるような気がしますが。。。

Stable Baselines Zoo - 学習アルゴリズムACKTRで倒立振り子（Pendulum-v0）を攻略

July 13, 2020

インベーダーゲームで一番成績の良かった学習アルゴリズム ACKTR をいろいろな環境で実行してみます。

今回は 倒立振り子（Pendulum-v0） を攻略します。振り子へ適切にトルクを与えることで、垂直に振り上げた状態を維持することが目的です。

Pendulum-v0を攻略

ACKTR の学習済みモデル(Stable Baselines Zoo提供)を使ってPendulum-v0を実行し、その様子を動画ファイルに出力します。

各オプションは以下の通りです。

環境(env)
Pendulum-v0
学習アルゴリズム(algo)
ACKTR
ステップ数(n)
3000

[コマンド]

1	python3.7 -m utils.record_video --algo acktr --env Pendulum-v0 -n 3000

実行結果は以下のようになりました。(Ubuntu 19.10で動作確認しています。)

体操選手を思わせるほど完璧に倒立状態を維持してくれています。さすがのACKTRです。

Stable Baselines Zoo - 学習アルゴリズムACKTRでパックマン（MsPacmanNoFrameskip-v4）を攻略

July 12, 2020

インベーダーゲームで一番成績の良かった学習アルゴリズム ACKTR をいろいろな環境で実行してみます。

今回は パックマン（MsPacmanNoFrameskip-v4） を攻略します。

MsPacmanNoFrameskip-v4を攻略

ACKTR の学習済みモデル(Stable Baselines Zoo提供)を使ってMsPacmanNoFrameskip-v4を実行し、その様子を動画ファイルに出力します。

各オプションは以下の通りです。

環境(env)
MsPacmanNoFrameskip-v4
学習アルゴリズム(algo)
ACKTR
ステップ数(n)
3000

[コマンド]

1	python3.7 -m utils.record_video --algo acktr --env MsPacmanNoFrameskip-v4 -n 3000

実行結果は以下のようになりました。(Ubuntu 19.10で動作確認しています。)

なんとか１面クリアくらいまでは頑張ってほしいのですが、そこまでうまくはプレイしてくれません。

Stable Baselines Zoo - 学習アルゴリズムACKTRでマウンテンカー（MountainCar-v0）を攻略

July 11, 2020

インベーダーゲームで一番成績の良かった学習アルゴリズム ACKTR をいろいろな環境で実行してみます。

今回は マウンテンカー（MountainCar-v0） を攻略します。車を前後に移動させて山の上のゴールを環境です。

車は速度が0、位置は-0.6～-0.4のランダム位置で開始します。ステップ毎に報酬は-1が与えられます。

右の山の上（位置0.5）に到達するとゴールで、エピソード完了になります。200ステップに達した時もタイムオーバーでエピソード完了となります。

MountainCar-v0を攻略

ACKTR の学習済みモデル(Stable Baselines Zoo提供)を使ってMountainCar-v0を実行し、その様子を動画ファイルに出力します。

各オプションは以下の通りです。

環境(env)
MountainCar-v0
学習アルゴリズム(algo)
ACKTR
ステップ数(n)
3000

[コマンド]

1	python3.7 -m utils.record_video --algo acktr --env MountainCar-v0 -n 3000

実行結果は以下のようになりました。(Ubuntu 19.10で動作確認しています。)

前後に車を移動させて勢いをつけて、山の上のゴールに達している様子が確認できます。学習アルゴリズム ACKTR であれば余裕で攻略できるといった感じです。