)。s: State()と呼ばれるアルゴリズムを採用した章13に))と23に(a(b7――マツダ技報No.41(2025) Fig. 13Process of Building and Validating for Controller Model 強化学習アルゴリズムについて3.2 車両システムに搭載される制御デバイスの多くは,単純な機能だけでなく,負荷や開度を連続的に制ON/OFF御する必要があるため,強化学習アルゴリズムも連続値を扱えることが必須要件となる。連続値を扱える複数のアルゴリズムをベンチマークした結果,学習の安定性やSoft-Actor-Critic扱いやすさの観点から,今回の検討ではSAC(以下14SACの概要を示す。a: Actionを入力し,行動(現在の状態と行動を入力し状態の価値力する部分で構成される。プラントモデルを試行Critic錯誤的に操作する過程で取得するこれらの状態,行動,r: Reward)のデータを活用することで,報酬(Critic内のニューラルネットワークを学習していく。学Actor習後は部分を取り出すことによって制御モデルとして活用できる。Fig. 14Structure of SAC Algorism3.3 冷凍サイクル制御への強化学習適用 先述のとおり,今回の検証シーンでは冷凍サイクルを空調単独で運転しているシーンから,バッテリー冷却との併用シーンに切り替える。この際,空調への影響を最小化しつつ,バッテリーの冷却能力を最大化することが実現したい制御となる。この際,制御対象となるのは前AIサロ)に示しFig. 15)に示す学習Fig. 15は本制御の学習におい回繰り返し計400モデルで計算する場合,Fig. 3膨張弁のそれぞれの開度であり,強化学習アルゴリズムによって制御させた。このとき,強化学習が指示するものは開度の絶対値ではなく現在の開度からの変化量を指示する形とした。コンプレッサー負荷についてはバッテリー冷却を最大化するという要件を満たすためには全開負荷にするべきということは自明であるため,強化学習の制御対象とはせず前提条件として与えている。 また,強化学習を実施する上では先述したような実現したい制御内容を報酬式にて表す必要がある。そこで報酬設計の第ことを目的に,エバポレーター放熱量のねらい値と実値2の差分が小さいほど高報酬となるように設定した。第要件としてバッテリー冷却能力を最大化させることを目的に,バッテリーの冷却能力が大きくなるほど高報酬となるように設定した。第定制御させる上で必要となる膨張弁入口における過冷却度の確保を行うことを目的に,過冷却度が適正範囲内に入っていれば高報酬となるように設定した。これらの要件を重み付して複合させることでひとつの数式として表現し,報酬式として強化学習アルゴリズムに与えている。Fig. 最後に強化学習アルゴリズムが学習を行う上での状況部分と,判断材料となる状態(を出量を把握する上で重要となる因子をいくつか抽出して与えている。また,先述したエバポレーター放熱量と過冷却度のそれぞれのねらい値,実値も状態に加えている。Actor上記の設定にてゲートモデルを強化学習アルゴリズムに操作させ,制御モデルの学習を実施した。3.4AIFig. 15バッテリー冷却開始時の膨張弁制御を学習させた際の学習開始直後,学習終了時の結果を示す。ている学習初期では,過冷却度,エバポレーター放熱量ともにねらい値から外れているが,終了時ではどちらもねらい値をトレースできていることが確認できた。なお強化学習て,冷房単独運転からバッテリー冷却併用に切り替えるシーンをさまざまな条件下でエバポレーター放熱量,過冷却度のねらい値を任意に変えながら算を実施している。仮に数十日程度学習時間を要することになるが,高速計算可能なサロゲートモデル用いているため,本制御の学習AIに要した時間はSACでは現在の状態()を出力するQ (ActorQ Valueに示している空調側の膨張弁とバッテリー側の要件として,空調への影響を最小化させる要件として冷凍サイクルを安)は冷凍サイクルの内部状態State章にて紹介した冷凍サイクルサロゲートモデルと強化学習連成AIサロゲートモデルと強化学習を連成させ,AI1D-CAE20分程度となっている。
元のページ ../index.html#16