今回は、2013年のデータで学習を行い、2014年のデータで検証してみます。
2013年で学習し2014年で検証
パラメータとしては、これまで同様に学習アルゴリズム PPO2 で参照すべき直前データを 100 としています。
1 | import os, gym |
info: {‘total_reward’: -179400.00000000992,
‘total_profit’: 0.7486859615998132,
‘position’: 0}
<br>
<center>
![実行結果](/img/zoo/trade17.png)
</center>
<br>
2013年のデータで学習し、2014年のデータで検証した投資成績は次の通りです。
- トータル報酬 -10,000 → 85,399 → 176,799 → -179,400
- トータル収益 0.7218 → 0.9991 → 0.9825 → 0.7486
<br>
これまでの4回の検証の中で、トータル報酬は最も悪い投資成績となりました。
グラフから分かるように105円から120円にジャンプアップした年だったようで、大きな変化には弱いアルゴリズムなのかもしれません。
2011年、2012年、2013年、2014年と順次比較をしてきましたが、現状2勝2敗という結果になっています。