世俱杯规则-虎牙直播-比利亚vs西班牙人-德国杯|www.cnyhmy.com

基于混合強化學習的主動配電網故障恢復方法

時間:2024-11-11 18:15:02 來源:網友投稿

徐 巖,陳嘉岳,馬天祥

(1.華北電力大學電氣與電子工程學院,保定 071003;
2.國網河北省電力有限公司電力科學研究院,石家莊 050021)

配電網連接電網和終端用戶,直接影響用戶的供電可靠性,如果發生故障,會對用戶產生較大的影響。而在配電網自動化故障管理系統中,故障恢復占據重要地位[1-2]。隨著經濟發展和技術水平提升,對配電網可靠性的要求越來越高,而分布式電源接入比例的提升,也給配電網故障恢復帶來了巨大挑戰。

配電網故障恢復作為電力系統的重要研究方法,受到了研究人員的廣泛關注。目前主要是使用經典算法或智能算法進行恢復。文獻[3]采用魯棒優化理論建立故障恢復方法,將風光出力和故障恢復方案分別作為自然決策者和系統決策者,令兩者進行博弈,具有較好的魯棒性;
文獻[4]利用網絡拓撲分層劃分特定網絡的自愈單元組,再根據自愈單元的基本環路矩陣確定非故障失電區范圍和復電方式,顯著減少了拓撲遍歷的復雜度,加快了運算速度;
文獻[5]提出了一種基于生物體免疫機制的故障恢復方法,通過模擬生物體對外部微生物的免疫行為,能快速獲得恢復方案,對配電網故障進行有效恢復,這種方法在分布式電源接入的情況下有顯著優勢;
文獻[6]使用二進制粒子群算法對交直流混合配電網故障進行恢復,對所建立的模型設計兩階段優化求解流程,能有效降低求解難度、提高求解效率。

強化學習作為一種新興的機器學習方法,近年來受到了廣泛關注。不同于監督學習和非監督學習,強化學習不需要事先給定數據,而是通過智能體接受環境反饋,并利用反饋學習信息更新模型參數。目前,已有學者使用強化學習方法來解決電力系統相關問題。針對故障檢測和恢復問題,也有學者提出了相關解決方法。文獻[7]通過提取孤島微電網的故障特征,基于深度強化學習方法,深度跟蹤電網故障信息,通過三端行波測距法,判定孤島微電網故障區域;
文獻[8]把恢復問題轉化為一個順序決策問題,在電源側和負載側實現了雙重最優控制策略,提高了系統的恢復能力;
文獻[9]提出了一種基于改進深度確定性策略梯度DDPG(deep deterministic policy gradient)算法的服務恢復方法,來輔助孤島微電網的服務恢復,該方法能可靠收斂,學習性能較高。但目前已有研究較少涉及主動配電網的故障恢復,同時針對高比例新能源配電網,故障恢復時較少考慮分布式電源的調控問題。

基于此,本文提出一種基于混合強化學習的主動配電網故障恢復方法。將配電網故障恢復問題轉化為規劃問題,以故障損失最小為目標、電網安全運行條件為約束,建立馬爾可夫模型,構建智能體和配電網交互環境。恢復模型中動作空間既有離散動作又有連續動作,現有方法是將連續動作轉化為離散動作,再進行處理,該方法會增加恢復過程的計算量,減慢恢復速度。因此,本文將競爭架構雙深度Q 網絡D3QN(dueling double deep Q network)和DDPG算法進行混合,使用D3QN算法處理離散部分、DDPG算法處理連續部分,很好地解決了計算量大、恢復速度慢的問題。通過仿真實驗驗證了本文方法比傳統算法或單一強化學習算法能顯著減少恢復時間,提升恢復效果。

在配電網故障發生時,應盡可能使損失最小,并將停電對用戶的影響降到最低。故障恢復過程中,應保證各項參數在允許范圍內,確保配電網安全有序恢復。本文由此構造目標函數和約束條件,建立恢復模型。

1.1 目標函數

以故障綜合損失最小為目標,構建主動配電網恢復模型,定義恢復目標函數為

式中:g1為總失電負荷;
g2為開關動作次數;
g3為恢復成本;
g4為網絡損耗;
g5為電壓波動;
g6為用戶總停電時長;
k1、k2、k3、k4、k5、k6分別為子函數對應的權重;
g1、g2、g3為恢復效果目標;
g4、g5、g6為電能質量目標。g1、g2、g3、g4、g5、g6可分別表示為

式中:ωi為節點i的負荷重要度系數;
Di,t為節點i在t時刻的負荷時變需求系數;
Li,t為節點i在t時刻負荷需求量;
N為節點總數;
xi,t和si,t分別為節點和支路的接入狀態,其為0-1變量,當取值為1時表示節點或支路接入;
Δsi,t=si,t-si,t-1;
cG、cDESS、cPV、cWT分別為火電機組、儲能設備、分布式光伏和風電機組的運行成本;
NG、NDESS、NPV、NWT分別為配電網中火電機組、儲能設備、分布式光伏和風電機組的數量;
T為故障恢復總時間;
M為支路集合;
Rs為支路s的阻抗;
Ps、Qs、Us分別為支路s末端節點的有功功率、無功功率和電壓幅值;
為節點i在t時刻的電壓幅值;
為節點i的電壓額定幅值;
α為停電時間損失系數,取a>1。

1.2 約束條件

本文模型考慮潮流約束、儲能約束、分布式電源約束和恢復時間約束。運行的電力系統應滿足基本的有功功率和無功功率平衡約束,即

式中:Pi,t、Qi,t分別為t時刻節點i流入的有功、無功功率;
、分別為t時刻節點i發電機有功、無功功率;
、分別為t時刻節點i儲能裝置的充、放電功率;
、分別為t時刻節點i光伏設備的有功、無功輸出;
、分別為t時刻節點i風力發電機的有功、無功輸出;
、分別為t時刻節點i負荷消耗的有功、無功功率。

故障恢復過程中,為保證電能質量,配電網各節點電壓和功率不應超出允許的最大范圍,即

式中:Ui,t為t時刻節點i處的電壓;
Ui_min和Ui_max為節點i處的電壓下限和上限;
Pi_min、Pi_max、Qi_min、Qi_max分別為節點i處的有功功率和無功功率的下限和上限。

儲能設備工作時,應滿足如下功率約束條件:

式中:為t時刻節點i儲能設備的總功率;
ηDESS為儲能設備的充放電效率;
和分別為儲能設備總功率的下限和上限;
和分別為充電功率的下限和上限;
和分別為放電功率的下限和上限。

同時,儲能設備應滿足如下容量約束條件:

式中:為t時刻節點i儲能設備的容量,kW·h;
和分別為儲能設備容量的下限和上限。

新能源配電網通常有高比例分布式電源接入,接入的分布式光伏電站和風力發電機組應滿足如下約束條件:

式中:η為光電轉化效率;
APV為光伏組件受光面積;
I為輻照強度;
vt為t時刻的風速;
vci、vfi、vrate分別為風電機組的切入、切出、額定風速;
b1、b2為常系數;
Pr為風電機組額定功率;
為光伏設備的最大有功功率;
為風電機組的最大有功功率。

為確保終端用戶的供電質量,需要對恢復時長進行約束。設用戶可接受的最大停電時長為Tmax,則恢復時間T應滿足

配電網恢復過程應充分考慮以上約束條件。以式(11)為目標函數、式(8)~(22)為約束條件,將主動配電網故障恢復問題構建為一個混合整數二次規劃MIQP(mixed integer quadratic programming)問題。

強化學習的本質是構建一個智能體,令智能體和環境進行交互。在這一過程中,智能體會得到環境的反饋,并通過反饋調整下一步的動作,進而完成對環境的最優響應。強化學習解決的實際問題規模較大,在解決問題過程中,通常假設狀態轉化過程具有馬爾可夫性,故這種決策過程被稱為馬爾科夫決策過程。該決策過程可把配電網故障恢復問題拆分成一系列單階段問題進行求解。馬爾可夫決策過程可以描述為五元組形式,即

式中:S為狀態空間,st為狀態空間集中的某一個狀態;
A為動作空間,at為動作空間集中某一個動作;
R為環境獎勵,rt為其中某一個獎勵;
γ為獎勵衰減因子,表示當前延時獎勵和后續狀態獎勵之間的權重關系,γ∈[0,1];
π為個體策略,表示個體采取動作的依據,即個體會依據策略概率π來選擇動作。通常采用條件概率分布π(a|s)=p(A=at|S=st)來表示個體策略,即在狀態st時采取動作at的概率。

在智能體和環境的交互過程中,智能體會根據t時刻環境狀態st、接收獎勵rt及個體策略π來選擇合適的動作at;
然后將環境狀態從st轉換到st+1,智能體獲得動作at的延時獎勵rt+1=r(st,at,st+1)。馬爾可夫決策過程如圖1所示。

圖1 馬爾可夫決策過程Fig.1 Markov decision process

在馬爾可夫決策過程中,智能體會通過迭代學習過程獲得決策能力,決策目標為給定狀態和動作(s,a)時,動作價值函數Qπ(s,a)的期望值最大,即

式中:Eπ為智能體依據π選擇動作at所獲得的期望價值函數;
RT為截至到T時刻累計的獎勵總和。

2.1 用于故障恢復的強化學習模型

根據第1 節所述的目標函數和約束條件,構建配電網恢復問題的馬爾可夫模型。

2.1.1 動作空間

配電網故障恢復過程中,需要同時操作斷路器和調節電源出力。斷路器的狀態只有打開和閉合兩種狀態且動作空間離散,而電源出力是一個連續調節的過程且動作空間連續。因此,分別將這兩個動作空間記為Ad和Ac,即

設斷路器t時刻的動作為0-1 狀態變量os,其中os=0 表示未對斷路器進行操作,保持t-1 時刻狀態;
os=1 表示對斷路器進行操作,與t-1 時刻開關狀態相反。將離散狀態空間Ad用os表示,即

式中:Np為配電網中可操作斷路器的數量;
os,i為第i個斷路器的動作狀態;
τ為斷路器集合。

將恢復過程的電源出力以連續狀態表示,即

式中:Nq為配電網中可控電源的數量;
Ps,i和Qs,i分別為節點i處可控電源的有功和無功功率;
σ為可控電源集合。

2.1.2 狀態空間

在配電網模型中,任意時刻系統的狀態S可由系統觀測狀態和系統運行約束兩部分組成。分別構建觀測狀態空間SO和約束狀態空間SC,即

在配電網運行時,若配電網的約束條件不變,則狀態空間可以簡化為SO,而SC作為已知常量輸入智能體。

2.1.3 獎勵空間

獎勵函數的設計直接影響智能體的決策,設計過程中需充分考慮目標函數和約束條件。智能體在動作集A中選擇任一動作后,環境會根據智能體的完成情況給予不同的獎勵值。在本文中,若配電網故障得到恢復,則智能體獲得正向獎勵;
反之,若故障恢復失敗,則對智能體進行懲罰。

由于配電網不同約束條件對應不同的重要程度,設置懲罰函數包括軟約束懲罰和硬約束懲罰,則獎勵函數和懲罰函數分別為

式中:rk1為獎勵函數;
rk2和rk3分別為軟約束懲罰和硬約束懲罰;
N1為收到獎勵的動作數;
N2和N3分別為收到軟約束懲罰和硬約束懲罰的動作數;
ξ0、ξ1、ξ2為獎懲常數,可根據電網恢復需求設定;
ξ′為很大的懲罰系數,代表違反硬約束的懲罰;
ai為智能體動作;
k1、k2、k3為智能體所屬的動作空間;
ci為常系數。這里軟約束條件可以被突破,智能體會被施加懲罰;
而若硬約束條件被違反,則恢復過程終止。

2.2 混合強化學習算法

由式(26)~(31)可知,本文擬解決的問題為狀態空間連續且動作空間兼具離散與連續的混合問題。目前,常用的解決方法是將動作空間中連續部分轉換成離散部分,使用深度Q網絡DQN(deep Q-learning network)等算法加以求解,但會增加計算量,減慢計算速度。為解決此問題,本文提出了一種混合強化學習算法,將D3QN和DDPG算法相結合,使用D3QN 算法處理動作空間離散部分,DDPG 算法處理動作空間連續部分,達到精簡動作空間的目的。

2.2.1 雙深度Q 網絡

Q-learning方法是一種常用的強化學習方法,適用于解決配電網中離散變量的決策問題,是一種廣泛應用的強化學習方法。此方法根據當前狀態st由智能體決策得到動作at。Q值函數可以表示為

式中:μ為折扣因子;
st和ad,t分別為t時刻狀態值和離散動作值;
Q(st,ad,t)為當前狀態和動作對應的Q 值;
Q′(st,ad,t)為上次迭代獲得的Q 值;
r(st,ad,t)為智能體在當前狀態和動作獲得的獎勵。為解決高維度運算存在的內存溢出問題,采用神經網絡逼近Q值的DQN算法。

在DQN算法中,定義Q值函數為

式中,θ為神經網絡的訓練權值。DQN有兩個結構相同的神經網絡,其中一個用于計算目標Q 值,另一個用于估計當前狀態的Q 值。DQN 算法的目標是訓練合適的權重,使得目標Q值相對于當前狀態Q值的損失最小化。yd,t為DQN算法中離散動作目標網絡的Q值,可表示為

式中,θ′為目標網絡的權值。

DQN算法普遍存在高估問題,會導致訓練結果偏離期望值。為解決這一問題,文獻[10]提出了Double DQN算法,對目標網絡的動作選擇和評估進行解耦,從估計網絡中選擇Q值最大的動作。Double DQN 與DQN 算法的區別僅在于目標Q 值的計算。Double DQN 算法中離散動作目標網絡的Q 值可表示為

為了保證動作選擇在特定狀態下的支配性,文獻[11]提出了Dueling DQN 算法。Dueling 網絡的結構如圖2 所示。Dueling 神經網絡的狀態輸出為狀態值函數V(st)和動作優勢度函數A(st,ad,t)的組合,然后將兩者耦合到每個動作的Q 值函數。此時Q值函數可以表示為

圖2 Dueling 神經網絡結構Fig.2 Structure of dueling neural network

式中:|A|為可執行動作的數量;
為動作優勢度函數中的離散動作值。

D3QN 算法在Double DQN 的基礎上改進了網絡結構,其余部分并無差異。在將D3QN 算法應用于故障恢復模型時,V(st)僅與配電網狀態有關,A(st,ad,t)與配電網狀態和斷路器動作狀態有關。這種處理減少了訓練中錯誤動作對Q值計算的影響,能有效提升收斂速度。

2.2.2 深度確定性策略梯度

DDPG 是一種基于行動者-批評家架構的強化學習算法,適用于解決配電網中連續變量的決策問題,本文使用DDPG 算法來調節各節點上的電源功率。在DDPG 算法中,使用兩個網絡對智能體進行訓練,行動者估計網絡β用來近似策略函數,神經網絡參數為θβ;
批評家估計網絡ψ用于評價當前狀態下動作效果,神經網絡參數為θψ。為了提高訓練的穩定性和收斂性,DDPG 算法還引入了行動者目標網絡β′和批評家目標網絡ψ′,對應的參數分別為θβ′和θψ′。

行動者估計網絡參數θβ的更新是沿著使Q 值更大的方向進行的,即

式中:?θJ為在優化目標函數J中對θ的梯度;
?acQ和?θββ分別為對θψ和θβ的梯度;
ac為連續動作值。

批評家估計網絡參數θψ使用最小化損失函數來更新,即

式中:yc,t為連續動作目標網絡的Q值;
ac,t為第t次循環對應的連續動作值;
rc,t為第t次循環連續動作獲得的獎勵值。

2.2.3 基于混合強化學習的恢復方法

本文提出的混合強化學習算法采用D3QN 控制離散動作、DDPG控制連續動作,來實現故障的快速恢復。兩種算法在訓練過程中獨立與環境交互,并從環境中更新同一狀態,當其中一個算法在訓練時,將另一個算法參數固定,作為訓練環境的一部分。本文提出的算法流程如圖3 所示。其中,ad,i和ac,i分別為數組中第i個離散動作和連續動作,rd,i和rc,i分別為數組中第i個離散動作獎勵值和連續動作獎勵值。

圖3 混合強化學習算法流程Fig.3 Flow chart of hybrid reinforcement learning algorithm

以圖3所示的流程在給定的配電網拓撲結構中進行訓練,訓練完成的智能體可用于配電網故障恢復。

通過IEEE33節點配電網系統,驗證本文算法的有效性。本文計算機配置為Intel Core i5-1130 CPU,16 GB RAM,軟件采用python 3.10.6。分別使用D3QN算法、DQN+DDPG混合算法、D3QN+DDPG混合算法(本文算法)及傳統粒子群算法對系統進行故障恢復。

仿真所用IEEE33節點配電網如圖4所示,首段基準電壓取12.66 kV,在節點12和節點23節點接入分布式光伏,節點7接入風電機,節點29接入儲能裝置。

圖4 算例用IEEE33 節點配電網示意Fig.4 Schematic of IEEE33-node distribution network in example

3.1 模型訓練

模型訓練過程中的相關參數設置如表1 所示。訓練獎勵-步長曲線如圖5所示。由圖5可知,3 種算法均能有效收斂,其中本文算法比D3QN 算法收斂速度更快,比DQN+DDPG 算法在收斂穩定性上更具優勢。這表明Double DQN 和Dueling network的引入能提升收斂穩定性,本文算法在訓練效果上優于其他強化學習方法。

表1 算例參數設置Tab.1 Parameter setting for example

圖5 訓練獎勵-步長曲線Fig.5 Curve of training reward vs step length

3.2 恢復效果

將訓練好的模型進行保存,并對IEEE33節點配電網進行恢復,分別設定4種情況的仿真參數如下。情況1:恢復步長為20、離散變量數為420、連續變量數為400;
情況2:恢復步長為40、離散變量數為840、連續變量數為800;
情況3:恢復步長為60、離散變量數為1 260、連續變量數為1 200;
情況4:恢復步長為80、離散變量數為1 680、連續變量數為1 600。將本文算法與D3QN 算法、DQN+DDPG 混合算法、粒子群算法進行對比,恢復效果如圖6和表2所示。

表2 恢復效果對比Tab.2 Comparison of recovery result

圖6 恢復過程相關參數Fig.6 Related parameters of recovery process

圖6 給出了恢復過程失負荷量、網絡損耗、儲能裝置功率、光伏功率和風機功率的變化情況。可以看出,對于失負荷量,本文算法的曲線前段下降迅速,在恢復速度上優于其他算法,同時3 種強化學習算法恢復后的失負荷量均優于粒子群算法,其中本文算法略優于D3QN算法和DQN+DDPG算法;
對于網絡損耗,本文算法優于DQN+DDPG 算法和粒子群算法,這是因為D3QN 算法在網絡損耗控制方面表現更好,降低了恢復過程的網絡損耗;
對于儲能裝置功率,本文算法中儲能裝置的平均功率最小,功率波動平緩,有些時段還可利用盈余功率進行充電,這樣可有效減少儲能設備的裝機容量,延長裝置壽命,降低裝設成本;
對于光伏和風機功率,本文算法中光伏和風機的平均功率高于其他算法,功率曲線更為平緩,這表明本文算法在分布式電源調控方面具有優勢。

表2給出了恢復過程中4種算法的最優目標函數值和恢復時間的對比。可以看出,對于最優目標函數值,4 種仿真情況下本文算法的最優目標函數值均最小,恢復效果最優,而且隨著離散變量和連續變量數量及步長的增加,本文算法的恢復效果的優勢更為明顯。此外,3 種強化學習算法的恢復效果均優于粒子群算法且優勢明顯。對于恢復時間,3種強化學習算法的恢復速度均明顯優于粒子群算法,這是因為強化學習算法在訓練完成后,保存的智能體可以直接用于恢復,在同一拓撲結構下無需重新訓練。本文算法的恢復時間最短,同時隨著離散變量和連續變量數量及步長的增加,幾乎沒有造成恢復時間的延長。而粒子群算法隨著離散變量和連續變量數量及步長的增加,恢復時間會明顯延長,在步長為80 時粒子群算法恢復時間是本文算法的2 300倍。上述結果驗證了本文算法在恢復速度方面也優于傳統算法。

本文提出了一種基于混合強化學習的主動配電網故障恢復方法,主要結論如下。

(1)本文針對主動配電網故障恢復問題,構建了配電網故障恢復模型,同時模型中還考慮了高比例新能源接入的情況。

(2)選取D3QN+DDPG 混合算法作為訓練算法,解決了傳統強化學習方法只能處理單一動作空間的問題。結果表明,本文算法在訓練時收斂穩定性高,恢復過程網絡損耗控制良好,分布式電源出力平穩,對儲能裝置依賴也較小,同時在恢復速度和恢復效果上優勢明顯,驗證了本文算法的有效性和優越性。

猜你喜歡 儲能配電網狀態 相變儲能材料的應用煤氣與熱力(2021年6期)2021-07-28狀態聯想小學生作文(低年級適用)(2019年5期)2019-07-26配電網自動化的應用與發展趨勢經濟技術協作信息(2018年32期)2018-11-30儲能技術在電力系統中的應用通信電源技術(2018年3期)2018-06-26生命的另一種狀態讀友·少年文學(清雅版)(2018年12期)2018-04-04儲能真要起飛了?能源(2017年12期)2018-01-31基于IEC61850的配電網數據傳輸保護機制電測與儀表(2016年5期)2016-04-22熱圖家庭百事通(2016年3期)2016-03-14堅持是成功前的狀態山東青年(2016年3期)2016-02-28直流儲能型準Z源光伏并網逆變器電源技術(2016年2期)2016-02-27

推薦訪問:混合 強化 故障

最新推薦
猜你喜歡