TesnorBoardはTesorFlowのデータを可視化するツールです。
学習状況をより詳細に観察することができるようになります。
1.Lesson
カリキュラム学習のレッスンの進捗です。カリキュラム学習でない場合は、Lesson 0のままとなります。
2.Cumulative Reward
エージェントの平均累積報酬です。継続して増加し、上下の振れ幅が小さいことが期待されます。
タスクの複雑さによってはなかなか増加しないこともあります。
3.Entropy
Brainが決定する「Actionがどれだけランダムであるか」を示す値です。
継続的に減少することが期待されます。
Actionのデータ型が離散(Discrete)の場合、次のような対応が有効となります。
- エントロピーの減少が早すぎる。
→ ハイバーパラメータのbetaを増やす。 - エントロピーの減少が遅すぎる。
→ ハイバーパラメータのbetaを減らす。