これまで広げたマップに対していろいろ改善を行ってきましたが、まだ完全攻略するに至っていません。
[広くしたマップイメージ]
今後の戦略を練るために、一旦これまでの改善内容をまとめたいと思います。
改善点まとめ
エージェントが動かない場合のマイナス報酬を増やす。
エージェントが動かないステップが多かったので、エージェントが動かない場合のマイナス報酬を増やしてみました。(-1 ⇒ -10)スタート地点に戻ったときの報酬を設定。
エージェントがスタート地点に戻った時の報酬を設定していなかったので、-10というマイナス報酬を設定しました。ゴール時の報酬をアップ。
最終報酬がプラスになることがほとんどなかったので、ゴール時の報酬をアップさせました。(3000 ⇒ 15000)学習回数を増やす。
回数は少なめですがゴールすることあったので、もう少し頑張れば攻略できるのではないかと思い学習回数を5倍に増やしてみました。(128000 ⇒ 128000×5)
次回は別の改善を行い完全攻略を目指します。