在工業應用場景中,跟蹤控制問題無處不在,如化工生產中的溫度控制、濃度控制,伺服系統中的速度控制、位置控制等。提高跟蹤控制器的控制性能有利于工業系統朝著精密化、節能化的方向發展。為研究如何實現最優跟蹤控制,學界提出了線性二次型跟蹤器(Linear Quadratic Tracker, LQT)問題。
該問題的目標是設計一個控制器,使得在該控制器作用下系統輸出在某個線性二次型指標下性能最優。傳統的LQT解法包含兩個步驟:首先求解代數黎卡提方程(Algebraic Riccati Equation, ARE)得到一個反饋項,然后求解一個非因果的微分方程得到一個前饋項[1]。該解法一般需要離線進行,且需要知道被控系統的動態模型。
為了擴大LQT的應用范圍,使其在系統動態模型未知的情況下也能得到最優控制輸出,人們嘗試將自適應動態規劃(Adaptive Dynamic Programming,ADP)的思想(文獻[2]中也稱其為強化學習(Reinforcement Learning, RL))應用到LQT問題中。
Q學習算法是ADP方法中較為流行的一種,已有大量研究將其用在了線性二次型調節器(Linear Quadratic Regulator, LQR)問題的求解上。該算法屬于一種策略迭代(Policy Iteration)式的算法,它的應用不需要知道被控系統的動態模型。
然而,相比于LQR問題,LQT問題中前饋項的計算帶來了額外的復雜度,因此Q學習在LQT問題中還未能得到大量的應用。文獻中已有的應用案例也往往附帶了某些前提條件,如要求系統動態模型已知等[5]。文獻[4]提出了一種將Q學習應用于離散線性系統最優跟蹤控制的方法,并給出了理論上的收斂性證明。該算法可在線運行,并且將系統模型的辨識包含在了策略迭代的過程中,因此不需要知道系統的動態模型即可達到線性二次型指標下的最優控制。
值得指出的是,目前基于ADP思想的控制方法具有對噪聲干擾敏感、收斂性差、運行工況受限、運算量大的缺點,這些都限制了它們在實際控制器中的應用。在實際應用中,一般被控系統都已經預先擁有可用的控制器,只是該控制器的控制性能需要得到改善。
為充分發揮ADP控制方法的自適應性與原控制器的穩定性,賦予原控制器在線學習的能力,近年來有學者提出將基于ADP思想的控制器作為附加控制器與原控制器并聯使用,取得了一定的效果。
在電力系統控制領域,文獻[6]將附加學習控制用于含大規模風電的電力系統中傳統火電機組的附加頻率控制,文獻[7]將附加學習控制用于雙饋風電場的暫態無功控制。在電力電子領域,文獻[8]將附加學習控制用于并聯型有源電力濾波器的控制,文獻[9,10]將附加學習控制用于虛擬同步機的控制。在以上文獻的仿真驗證中,附加學習控制均帶來了一定的控制性能提升。
速度控制是交流電機伺服系統中的一個重要問題,傳統上多采用PID控制。在電機運行過程中,轉動慣量、轉矩環時間常數等參數均容易發生一定的變化,影響速度環的控制性能。因此在要求高精度的場合中,傳統的PID控制無法滿足需要,往往需要對速度控制器做自適應設計。
常見的自適應設計方法有非線性PI控制、自適應控制、自抗擾控制、模糊系統、滑??刂频?。其中非線性PI控制包括PI參數自整定、變結構PI控制等。部分PI參數自整定的研究用到了ADP思想,即通過某種逼近結構(如神經網絡)對系統進行建模,再根據某種代價函數動態地調整Kp、Ki,一般用于控制難以建模的電機(如開關磁阻電機)。雖然對于速度環的改進方向已經很豐富,然而目前將Q學習與附加學習相結合用于電機速度控制的研究還非常之少。
本文在文獻[4]所提的用于跟蹤控制的Q學習方法的基礎上,結合附加控制的思想,提出了用于跟蹤控制的在線附加Q學習方法。首先在LQT問題的框架下對待求解問題進行了定義;然后針對性地給出了在線附加Q學習迭代式地進行策略評價、策略改善的具體算法。
為驗證所提算法的有效性,選取伺服系統中電機速度跟蹤這一實際問題進行仿真。首先為被控系統設計了傳統的PI控制器,然后將本文所提出的附加控制器與其并聯組成新的控制器,最后通過仿真對不同參數設置下的控制效果進行了分析。
圖1 附加Q學習最優跟蹤控制器結構示意圖
圖2 附加控制下電機速度環結構框圖
本文將在線Q學習最優跟蹤控制方法與附加控制思想相結合,討論了其在線性離散系統無模型化跟蹤控制問題上的應用。對于電機速度跟蹤這一實際問題,首先為其設計了傳統的PI控制器,然后設計了基于在線Q學習的附加控制器與原控制器并聯。仿真結果表明,這一做法顯著改善了電機速度跟蹤的動態響應特性,并且具備在被控系統參數發生改變時自動調優的自適應能力。
雖然本文的研究基于線性系統,但實際生產中有大量的非線性系統在特定條件下可以進行局部線性化,此時即可用本文方法來處理。當檢測到系統進入不可線性化的區域時(如PI發生飽和時),可停止附加控制的輸入,此時可通過原控制器繼續維持系統在不可線性化區域的穩定運行。