RPAは、「Robotic Process Automation」を表します。
従来は人間のみが行うことができると考えられていた事務作業を代行する高度化したソフトウェア群(ソフトウェアロボット)及びそれらの行為を利用した業務改革手法です。
パソコンを操作してアプリケーションを扱う各種業務を代行し、デスクワークを効率化・自動化します。
RPAは、「Robotic Process Automation」を表します。
従来は人間のみが行うことができると考えられていた事務作業を代行する高度化したソフトウェア群(ソフトウェアロボット)及びそれらの行為を利用した業務改革手法です。
パソコンを操作してアプリケーションを扱う各種業務を代行し、デスクワークを効率化・自動化します。
Unity ML-Agentsでは「Agemt」「Brain」「Reward」の組み合わせによっていろいろな学習シナリオを実現することができます。
Unity ML-Agentsでは「Agemt」「Brain」「Reward」の組み合わせによっていろいろな学習シナリオを実現することができます。
機械学習や深層学習において、「学習」とは予測の誤差を最小化・最適化することを意味します。
最適化とは、与えられた関数を最小または最大にするようなパラメータを見つけることです。
機械学習とは、予測の誤差を最小にするパラメータを見つけることと言い換えることもできます。
TensorFlowでは勾配法という手法を使って関数を最小化します。
深層強化学習とは深層学習と強化学習の2つを組み合わせた方法です。
TesnorBoardはTesorFlowのデータを可視化するツールです。
学習状況をより詳細に観察することができるようになります。
予測する将来の報酬です。
学習成功時には増加し、継続して増加することが期待されます。
予測する将来の報酬と実際の報酬がどれだけ離れているかを示す値です。
報酬が安定したら、減少することが期待されます。
TesnorBoardはTesorFlowのデータを可視化するツールです。
学習状況をより詳細に観察することができるようになります。
エピソードの平均の長さです。評価する環境によって望まれる結果は異なります。
ボールを落ちないようにする環境では、増加することが期待されます。
迷路を解くようなゲームでは、減少することが期待されます。
学習率です。今回の行動評価を過去の行動評価と比べてどの程度信じるかという割合になります。
時間とともに継続して減少します。
Brainが行動を決定する「方策がどれだけ変化しているか」を示す値となります。
学習成功時には減少し、継続的に減少することが期待されます。
TesnorBoardはTesorFlowのデータを可視化するツールです。
学習状況をより詳細に観察することができるようになります。
カリキュラム学習のレッスンの進捗です。カリキュラム学習でない場合は、Lesson 0のままとなります。
エージェントの平均累積報酬です。継続して増加し、上下の振れ幅が小さいことが期待されます。
タスクの複雑さによってはなかなか増加しないこともあります。
Brainが決定する「Actionがどれだけランダムであるか」を示す値です。
継続的に減少することが期待されます。
Actionのデータ型が離散(Discrete)の場合、次のような対応が有効となります。