AnyTrading - ビットコイン投資を強化学習で実行　日足編④

August 20, 2020

ビットコインの １日足 のデータでの投資シミュレーション４回目です。

強化学習のパラメータ

ソースはこれまでの応用なので割愛し、強化学習のパラメータだけを下記に示します。

学習アルゴリズム(前回と同様)
PPO2
参照する直前データ数(前回と同様)
50
学習データ
[2017-07-13 ～ 2018-05-11]　１日足データ(前回と同様)
検証データ
[2019-03-07 ～ 2020-01-01]　１日足データ(300日分移動)

投資結果

実行結果は以下の通りです。

[コンソール出力]

info: {'total_reward': -129460000.0, 'total_profit': 0.7332781444376287, 'position': 0}
info: {'total_reward': 8007910000.0, 'total_profit': 1.1611321501318785, 'position': 0}
info: {'total_reward': -1596410000.0, 'total_profit': 0.6106860051226524, 'position': 1}
info: {'total_reward': -3328340000.0, 'total_profit': 0.6760597155530264, 'position': 1}
info: {'total_reward': -8788740000.0, 'total_profit': 0.45438850615327553, 'position': 0}
info: {'total_reward': 5385110000.0, 'total_profit': 0.8795481277282458, 'position': 0}
info: {'total_reward': -2390800000.0, 'total_profit': 0.7593373128144464, 'position': 1}
info: {'total_reward': -3432660000.0, 'total_profit': 0.6420892635304241, 'position': 0}
info: {'total_reward': 1127100000.0, 'total_profit': 0.8810127355706889, 'position': 0}
info: {'total_reward': 8186140000.0, 'total_profit': 1.060863551413895, 'position': 0}

[出力画像]

これまでの投資結果（トータル報酬）を表にまとめてみます。

No.	トータル報酬（３回前）	トータル報酬（２回前）	トータル報酬（前回）	トータル報酬（今回）
①	737,820,000円	1,225,670,000円	-2,424,490,000円	-129,460,000円
②	4,451,760,000円	2,672,370,000円	-3,870,060,000円	8,007,910,000円
③	4,724,240,000円	-996,930,000円	-5,277,570,000円	-1,596,410,000円
④	-3,133,420,000円	-5,494,530,000円	-4,064,980,000円	-3,328,340,000円
⑤	7,880,400,000円	7,793,260,000円	-2,953,150,000円	-8,788,740,000円
⑥	2,833,180,000円	-2,393,360,000円	7,233,760,000円	5,385,110,000円
⑦	2,268,160,000円	-815,410,000円	1,480,400,000円	-2,390,800,000円
⑧	1,437,600,000円	839,630,000円	-5,552,340,000円	-3,432,660,000円
⑨	-3,185,920,000円	2,794,730,000円	4,312,270,000円	1,127,100,000円
⑩	-5,817,080,000円	-5,354,750,000円	821,240,000円	8,186,140,000円

１０種類の学習済みモデルは、４勝６敗と負け越しとなりました。

学習モデルごとの結果としては、No②、No⑥、No⑨が３勝１敗と現状まあまあの投資成績となっています。