魏憲鵬,付 芳,張志才
(山西大學(xué) 物理電子工程學(xué)院,山西 太原 030006)
由于無人機的靈活性、機動性和低成本,其在物聯(lián)網(wǎng)(Internet of Things,IoT)網(wǎng)絡(luò)中實時應(yīng)用發(fā)揮著關(guān)鍵作用,如智能交通[1]、災(zāi)難救援[2]、野火預(yù)防[3]等。在這些應(yīng)用程序中,要求將IoT設(shè)備生成的實時數(shù)據(jù)盡可能新鮮地傳遞給接收器。例如,智能交通中復(fù)雜的數(shù)據(jù)和過時數(shù)據(jù)可能會導(dǎo)致錯誤的操作,甚至造成災(zāi)難性的后果[4]。因此,保證接受數(shù)據(jù)的及時性對無人機輔助物聯(lián)網(wǎng)網(wǎng)絡(luò)至關(guān)重要。信息年齡(Age of Information,AoI)是一種有效的性能指標(biāo),其定義為自生成接收器的最新更新以來經(jīng)過的時間量[5],其中最新收到的數(shù)據(jù)包的年齡值較小,因此,可以通過最小化AoI來保證接收數(shù)據(jù)的時效性。
基于深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的無人機軌跡設(shè)計被認(rèn)為是處理無人機路徑規(guī)劃問題的有效方法[6-9],其中無人機被視為“智能體”,通過與環(huán)境直接交互獲得最優(yōu)軌跡。例如,F(xiàn)u F 等[8]提出了一種基于好奇心驅(qū)動的DQN 路徑規(guī)劃方法;
Wang L 等[9]提出了一種基于深度確定性策略梯度算法的無人機路徑設(shè)計方法,以降低分布式邊緣計算系統(tǒng)中用戶的能量開銷。然而,這些優(yōu)化問題大都受短期限制條件約束。眾所周知,無人機的飛行能量預(yù)算對無人機的路徑規(guī)劃有很大影響,然而,他們忽略了飛行的能耗成本。考慮到無人機承載能量的局限性,Hu X等[10]提出了一種最小化無人機能耗的無人機軌跡規(guī)劃方案;
Liao Y 等[11]提出了一種多目標(biāo)優(yōu)化方案,以最小化AoI 和無人機的能耗成本;
Sun M 等[12]通過優(yōu)化無人機的飛行路徑和頻譜分配,在AoI 和飛行能量成本之間找到平衡。上述工作可以有效降低能耗,但不能保證無人機累積飛行能耗不超過總能耗預(yù)算。此外,在這些方案中,無人機的可用能量通常沒有得到充分利用,難以獲得最優(yōu)的無人機路徑規(guī)劃方案,從而導(dǎo)致高AoI。因此,如何充分利用無人機的能量做出更合理的決策是一個值得研究的問題。
本文研究無人機的路徑規(guī)劃和用戶關(guān)聯(lián)問題,以在滿足長期飛行能量約束的同時最小化AoI加權(quán)和。
1.1 系統(tǒng)模型
無人機輔助物聯(lián)網(wǎng)場景如圖1 所示。IoT 設(shè)備隨機部署在室外區(qū)域,在該區(qū)域中,無人機從起點到目的地巡航,旨在收集IoT 設(shè)備的狀態(tài)信息盡可能新鮮。本文考慮的模型中,無人機在采集IoT 設(shè)備信息時會處于懸停狀態(tài),因此不會產(chǎn)生多普勒頻移現(xiàn)象[13]。令K={1,2,…,K}表示所有物聯(lián)網(wǎng)設(shè)備的集合,設(shè)備k的位置由qk=(xk,yk,0),?k∈K表示。UAV 的巡航時間分為T個時隙,每個時隙的長度為τs。假設(shè)UAV 在固定的高度H上運動,相應(yīng)地,設(shè)q[t]=(x[t],y[t],H),?t∈T表示UAV 在第t個時隙的位置,q[0]=(xori,yori,H)表示UAV 的初始位置,q[T]=(xdest,ydest,H)表示UAV的目的地。
圖1 系統(tǒng)場景Fig.1 System scenario
1.2 飛行能量消耗模型
無人機的能源推進(jìn)成本通過式(2)計算
式中:P0為懸停狀態(tài)恒功率;
P1為誘導(dǎo)功率;
Utip為葉片的葉尖速度;
v0為懸停狀態(tài)的轉(zhuǎn)子平均誘導(dǎo)速度;
z0和ρ分別為機身阻力比和空氣密度;
μ和ξ分別為轉(zhuǎn)子堅固度和轉(zhuǎn)子盤面積。為了UAV 保留足夠的能量以執(zhí)行其他功能,UAV 的機動性必須滿足以下能量約束
式中:Efly[T]為整個巡航期間累計推進(jìn)能耗;
Emax為UAV最大允許推進(jìn)能耗[14]。
1.3 無線傳輸與AoI模型
令Gk2U表示從裝置k到位置為q[t]的UAV 的平均信道增益,其在LoS 和非LoS(NLoS)鏈路[15]下求平均,計算公式為
式中:fc為載波頻率;
ρ為光速;
Λ為選擇概率;
dk2U(q[t])為從設(shè)備k到UAV的距離
設(shè)備k與UAV之間可實現(xiàn)的數(shù)據(jù)速率
式中:PA[t]為k2U的發(fā)射功率;
σ2為設(shè)備k處的高斯白噪聲功率。
1.4 問題建模
通過聯(lián)合優(yōu)化UAV 的軌跡q[t]以及調(diào)度策略z[t]=在滿足能量約束的前提下,使整個飛行周期內(nèi)的長期AoI加權(quán)和最小。問題表述為
式中:ωk為在式(6)中的權(quán)重,表示設(shè)備信息的相對重要性。UAV 的初始和最終位置在式(7)中給出。式(8)為無人機的速度約束,其中Vmax為UAV 的最大速度。式(9)和式(10)保證UAV在每個時間段內(nèi)最多調(diào)度一個IoT 設(shè)備。式(11)表示Efly[T]整個巡航期間的累計推進(jìn)能量消耗不能大于Emax。接下來,我們將式(6)建模為一個CMDP,然后采用一種新的DRL 算法,即Safe-Actor-Critic[16]來解決此CMDP問題。
本節(jié)將上述優(yōu)化問題(6)建模為CMDP。將CMDP一個元組表示為每個元素具體描述如下:
S=S′∪Sdest為環(huán)境狀態(tài)特征空間,其中S′為瞬態(tài)空間,Sdest為最終狀態(tài)空間。S′包括3個部分:無人機在t時隙的坐標(biāo)q[t]=(x[t],y[t],H);
物聯(lián)網(wǎng)設(shè)備的位置qk=(xk,yk,0);
物聯(lián)網(wǎng)設(shè)備的AoI值?k∈K,t∈T。Sdest最終狀態(tài)空間為q[T]=(xdest,ydest,H)。
A為動作空間,包括無人機的速度vt和方向,以及無人機的調(diào)度策略z[t]。
P為狀態(tài)轉(zhuǎn)移概率函數(shù)。無人機的坐標(biāo)根據(jù)p[t]=vt*τ+p[t-1]進(jìn)行轉(zhuǎn)移,vt≤Vmax,vt為無人機在t時刻的飛行速度。
s0∈S為初始狀態(tài),其中包括q[0]=(x0,y0,H)及?k∈K。
r為獎勵函數(shù),定義為
式中:Ω為一個正常數(shù),用于將無人機誘導(dǎo)到最終位置[17-18]。
c為立即約束代價,定義為c(s,a)=Pfly[t]τ,c0為約束代價上限,根據(jù)式(11)有c0=Emax。
式中:T*為從起始狀態(tài)s0到目的地首次成功的時間。安全約束為
解決CMDP 問題的方法是找到最優(yōu)策略π*,使長期收益最大化,且滿足安全約束。CMDP 的優(yōu)化問題被公式化為
如何將長期約束Cπ(s0)轉(zhuǎn)化為可行的單步策略集是求解CMDP的關(guān)鍵。
3.1 安全策略集
本節(jié)利用Lyapunov函數(shù)理論來構(gòu)建安全策略集。首先,假設(shè)可以獲得式(15)的可行策略,用πb(·|s)∈Π 表示。給定初始狀態(tài)s0和約束閾值c0,Lyapunov函數(shù)定義集為
式中:Bπb,c[?](s)為貝爾曼函數(shù)計算,即
對于??(s)∈Γπb(s0,c0),Lyapunov 函數(shù)誘導(dǎo)的安全策略集為
式中:?(s0)≤c0,?π(·|s)∈F?(s)為式(15)的可行性策略。從式(17)中可以看出,較大的? 意味著可以獲得較大的F?(s),因此,下面的關(guān)鍵工作是構(gòu)造一個合適的Lyapunov函數(shù)?。
根據(jù)文獻(xiàn)[16]中的引理1,關(guān)于π*的長期約束Cπ*(s)可以轉(zhuǎn)化為πb誘導(dǎo)的Lyapunov函數(shù),寫為
式中:Δ(st)為每一步中可用的附加約束成本,用于擴展可行的操作空間并改進(jìn)策略。然而,在沒有π*的先驗知識的情況下構(gòu)建Δ(st)是具有挑戰(zhàn)性的。為了降低計算復(fù)雜度[19],Δ(st)近似為
式中:c0-Cπb(s0)為從s0到最終狀態(tài)可用的總輔助約束成本;
Ε[T*|s0,πb]為UAV 從開始位置到目的地的預(yù)期首次成功時間。通過這種方式,可以在規(guī)劃軌跡的同時充分利用UAV 的推進(jìn)能量預(yù)算。根據(jù)式(18)可以得到?Δ(s) 是可以由計 算,其 中Q?Δ(s,a)=QC(s,a) +Δ(s)QT(s,a) 為?Δ的狀態(tài)-動作值,QC(s,a)為約束值,QT(s,a)為從s到最終狀態(tài)的殘差步長,Δ(s)QT(s,a)表示約束成本的其余部分。為保證策略π(a|s)安全,必須滿足[π(a|s)-πb(a|s)]TQ?Δ(a|s)≤Δ(s),這意味著由π(a|s) 引起的額外成本[π(a|s)-πb(a|s)]TQ?Δ(a|s)不能超過Δ(s)。然后,由?Δ(s)誘導(dǎo)的安全策略集(17)可以寫為
3.2 critic部分
以下采用actor-critic 框架來解決問題(15)。在critic 部分,使用DNN 分別評估Q(s,a),QC(s,a)和QT(s,a)。
在每步中,新生成的數(shù)據(jù)被保存在經(jīng)驗池中,即D←(s,a,r,c,s′)∪D,通過從經(jīng)驗池中隨機采樣一批樣本(s,a,r,c,s′)來訓(xùn)練DNN,并通過式(21)更新參數(shù)
同樣QC(s,a)和QT(s,a)也分別通過DNN 近似器Q(s,a;?C)和Q(s,a;?T)進(jìn)行評估。參數(shù)?C和?T通過以下方式更新
3.3 actor部分
基于上節(jié)獲得的QC(s,a)和QT(s,a)以及在式(20)中構(gòu)建的安全策略集,可以計算出式(15)的最優(yōu)行動概率為
3.4 Safe Actor-Critic算法
Safe Actor-Critic算法的框架如圖2 所示。
圖2 Safe Actor-Critic框架Fig.2 The framework of Safe Actor-Critic
算法收斂性可以在文獻(xiàn)[16]中找到。該算法包括了三部分:actor 部分,critic 部分以及經(jīng)驗池,其學(xué)習(xí)率αc,t和αa,t滿足
模擬基于Python的模擬器上實現(xiàn),其中環(huán)境的參數(shù)設(shè)置如下:在600 m×600 m的面積上隨即部署K個物聯(lián)網(wǎng)設(shè)備,無人機在該區(qū)域上空巡航,接收設(shè)備產(chǎn)生的數(shù)據(jù),其懸停高度固定為H=100 m。傳輸速率的參數(shù)設(shè)置為fc=5.9 GHz,B=1 MHz[20],pk2U=0.1 W(?k∈K)[20],σ2=-110 dBm,信道參數(shù)的值為δ=9.61,β=0.16,ηLoS=1 dB,ηNLoS=20 dB[15]。無人機的能源推進(jìn)成本參數(shù)設(shè)置為:P0=3.4 W,P1=118 W,Utip=60 m/s,Vmax=30 m/s,v0=5.4 m/s,ρ=1.225 km/m2,μ=0.03,z0=0.3,ξ=0.28 m2[21]。
圖3 為所提算法不同Actor 學(xué)習(xí)率之間的收斂性能,其滿足等式(26)且通過反復(fù)試驗來設(shè)置。在這一部分中,Critic 的學(xué)習(xí)率被設(shè)定為αc,t=5×10-4。算法總共運行500 回合,每個回合中包括100步。
圖3 不同Actor學(xué)習(xí)率獎勵表現(xiàn)Fig.3 The reward performance comparison with different actor’s learning rates
由圖3 可知,當(dāng)學(xué)習(xí)率為αa,t=5×10-4,曲線大約150 回合處達(dá)到收斂,這是因為學(xué)習(xí)率過高,總會導(dǎo)致高方差和低獎勵。然而,當(dāng)學(xué)習(xí)率下降為αa,t=1×10-5時,學(xué)習(xí)速率變慢。相比αa,t=1×10-5和αa,t=5×10-4,學(xué)習(xí)率為αa,t=5×10-5是最佳的學(xué)習(xí)率,該學(xué)習(xí)率在平均收益和方差方面具有良好的性能。
圖4 為不同Critic學(xué)習(xí)率之間的收斂性能,這里Actor的學(xué)習(xí)率被固定為αa,t=5×10-5。同樣發(fā)現(xiàn)算法的收斂性能對學(xué)習(xí)率非常敏感,學(xué)習(xí)率為αc,t=5×10-3導(dǎo)致顯著方差,而αc,t=3×10-4導(dǎo)致較長的學(xué)習(xí)時間,Critic 的最佳學(xué)習(xí)率為αc,t=5×10-4。因此,在下面的部分中,αa,t和αc,t分別被設(shè)為αa,t=5×10-5和αc,t=5×10-4。
圖4 不同Critic學(xué)習(xí)率獎勵表現(xiàn)Fig.4 The reward performance comparison with different critic’s learning rates
為了顯示所提出的基于Safe Actor-Critic(SAC)算法的高效率,還模擬了基于Safe DQN的算法(SDA)[7]和基于拉格朗日Actor-Critic 的算法(LAC)[21]。圖5 為無人機在不同的總能量預(yù)算下每次SAC、SDA 和LAC 的累積推進(jìn)能量消耗。從圖5 可以看出,當(dāng)Emax=1.1×104J 時,SAC的總推進(jìn)能量成本在收斂后小于1.1×104J,SDA 的能耗成本同樣小于1.1×104J。當(dāng)Emax=2.6×104J 時,SAC 的能耗約2.5×104J。這是因為SAC 基于能量預(yù)算Emax為無人機構(gòu)建了一個安全策略集,因此,總推進(jìn)能量成本不會超過預(yù)算Emax。當(dāng)Emax=1.1×104J 時,LAC 的能量消耗約為1.5×104J。這是因為LAC 的策略不可能受到長期能源約束的嚴(yán)重限制,即UAV 的每回合的總推進(jìn)能量成本可能超過總能量預(yù)算。
圖5 不同總能量預(yù)算下無人機飛行的累積推進(jìn)能耗Fig.5 The UAV’s cumulative propulsion energy consumption per episode with different total energy budgets
圖6 為每回合SAC、LAC 和SDA 在不同總能量預(yù)算下的獎勵表現(xiàn)。
圖6 不同能量預(yù)算下每回合獎勵表現(xiàn)Fig.6 The reward performance per episode with different total energy budgets
從圖6 中可以看到,當(dāng)Emax從1.1×104J 增加到Emax=2.6×104J 時,SAC 的獎勵明顯增加,這是因為Emax越大,則無人機的可行動空間越大,獲得最優(yōu)策略的機會越多[22],獲得的獎勵也越高。當(dāng)Emax=1.1×104J 時,LAC 的獎勵比SAC 高,這是因為LAC 的策略并不嚴(yán)重受限于圖5 所示的能量預(yù)算。盡管在圖5 中,SDA 同樣受到能量約束,但是從圖6 中可以看出當(dāng)Emax=1.1×104J時,SDA 的獎勵低于SAC,因此,根據(jù)圖5 和圖6 可知,與SDA 和LAC 相比,提出的SAC 可嚴(yán)格滿足推進(jìn)能量消耗預(yù)算要求,并且收斂性能最佳。
圖7 所示為每個回合中不同的總能量預(yù)算下不同物聯(lián)網(wǎng)設(shè)備數(shù)目的AoI值,可見隨著物聯(lián)網(wǎng)設(shè)備數(shù)目的增加,AoI加權(quán)和顯著增加。這是因為無人機在每個時隙最多連接一臺設(shè)備,部署的設(shè)備越多,平均每臺設(shè)備享受的服務(wù)越少,AoI之和也隨之增加。此外,當(dāng)能量預(yù)算增加時,固定數(shù)量物聯(lián)網(wǎng)設(shè)備的AoI會減少,這是因為有了更多的推進(jìn)能量預(yù)算,無人機可以進(jìn)行更靈活的軌跡規(guī)劃,以接收更高AoI值的設(shè)備。
圖7 不同IoT個數(shù)的AoI加權(quán)和Fig.7 The weighted sum AoI of different devices
圖8 顯示了每一階段的平均加權(quán)和AoI 與UAV飛行高度的關(guān)系,可見當(dāng)無人機的高度增加時,AoI 值增加。由于物聯(lián)網(wǎng)設(shè)備到無人機的信道增益主要取決于兩者之間的距離,因此在帶寬和發(fā)射功率一定的情況下,飛行高度越高,信道條件越弱,傳輸速率越低。
圖8 不同高度下的建立表現(xiàn)Fig.8 The reward performance versus height
本研究的貢獻(xiàn)總結(jié)如下:
1)聯(lián)合優(yōu)化無人機的軌跡和物聯(lián)網(wǎng)設(shè)備調(diào)度策略以最小化網(wǎng)絡(luò)的加權(quán)和AoI,其中無人機累積飛行能量成本受能量預(yù)算限制。
2)由于優(yōu)化目標(biāo)受一組短期約束和長期能量約束的限制,該問題被建模為約束馬爾可夫決策過程(CMDP)。
3)采用Safe Actor-Critic 來求解該CMDP,為保證策略安全,利用Lyapunov函數(shù)構(gòu)建安全策略集,并基于此策略集訓(xùn)練策略網(wǎng)絡(luò)。
在未來的工作中,我們將利用多智能體DRL方法討論多無人機場景下的AoI最小化問題。
猜你喜歡 安全策略約束能耗 基于認(rèn)知負(fù)荷理論的叉車安全策略分析機械工業(yè)標(biāo)準(zhǔn)化與質(zhì)量(2023年6期)2023-09-26120t轉(zhuǎn)爐降低工序能耗生產(chǎn)實踐昆鋼科技(2022年2期)2022-07-08能耗雙控下,漲價潮再度來襲!當(dāng)代水產(chǎn)(2021年10期)2022-01-12“碳中和”約束下的路徑選擇加油站服務(wù)指南(2021年4期)2021-07-21探討如何設(shè)計零能耗住宅建材發(fā)展導(dǎo)向(2021年23期)2021-03-08基于飛行疲勞角度探究民航飛行員飛行安全策略湖北農(nóng)機化(2020年4期)2020-07-24約束離散KP方程族的完全Virasoro對稱數(shù)學(xué)年刊A輯(中文版)(2020年1期)2020-05-19日本先進(jìn)的“零能耗住宅”華人時刊(2018年15期)2018-11-10淺析涉密信息系統(tǒng)安全策略網(wǎng)絡(luò)空間安全(2017年10期)2017-12-21適當(dāng)放手能讓孩子更好地自我約束人生十六七(2015年6期)2015-02-28推薦訪問:無人機 最小化 聯(lián)網(wǎng)