マツダ技報2025
17/257

側り12((8――)(),マツダ技報No.41(2025)         4. おわりに参考文献20243.6 ノイズ付与学習によるアクションハンチング対策 上記の検討を行う過程で学習後の御指示値が高周波でハンチングする現象が生じた。その際に講じた対策をFig. 17Actor酬を最大化可能な行動の学習を進めていくため,が過学習傾向になっていることが,制御指示値のハンチング原因であると推察した。そこで面をなめらかにすることを目的に,状態にガウシアンノイズを加えて学習させた。その結果,Actorを構築可能になった。モデFig. 18 本報告では,化手法,及び強化学習を用いた構想設計段階における制御構築プロセスを示した。今後のれらの技術を活用し,開発の高効率化に貢献していく。また,強化学習制御モデルに関しては,構想設計段階での活用にとどまらず,量産車への実装に向け検討を進めていく。 MAZDA)波頭ほか:ネージメントシステムの検討,マツダ技報,pp.206-212Result of Learning StartResult of Learning Endモデルと強化学習制御モデに示す。強化学習の報酬に設定し)とエバポレーターの放熱1D-CAEサロゲートモデルからFig. 15(a)Fig. 15(b)3.51D-CAEモデルと強化学習制御モデルの連成Fig. 13で示した強化学習を用いた制御開発プロセスにStep31D-CAEおけるであるFig. 16ルの連成結果をSub-Coolた冷媒の過冷却度(量をターゲット値に追従させつつ,バッテリーの熱交換量を高く維持することができており,強化学習制御モデルはAIプラントモデルがルに変化したとしても,対応できていることが確認できた。これは制御指示値を絶対値ではなく現在値からの変化量で与えていることで,強化学習制御モデルは目標値に近づくために進むべき方向を学習しており,フィードバック的な制御を構築できているためであると考えられる。Fig. 161D-CAE Model Result with Reinforcement Learning ControllerActorが出力する制の出力を用い,報Critic関数の応答局CriticFig. 18に示すとおモデルの計算高速開発においてはこBEVEV熱マNo.34に示す。Fig. 17Anti-Hunting Measures Using Gaussian Noiseは報酬期待値を算出するCriticのハンチングを低減でき,安定した制御モデルEffect of Anti-Hunting Measures on Control IndicationAI技術による1D-CAE統合報告書より1D車両全体モデルを活用した2022

元のページ  ../index.html#17

このブックを見る