強化学習では、戦略を重視するか(Policyベース)、価値を重視するか(Valueベース)が重要なポイントとなります。
この2つをシミュレーションするサンプルがありましたので実行してみました。
参考
Pythonで学ぶ強化学習 -入門から実践まで- サンプルコード
強化学習では、戦略を重視するか(Policyベース)、価値を重視するか(Valueベース)が重要なポイントとなります。
この2つをシミュレーションするサンプルがありましたので実行してみました。
参考
Pythonで学ぶ強化学習 -入門から実践まで- サンプルコード