李 萌, 孫艷歌, 郭華平, 吳 飛
(信陽師范學院 計算機與信息技術學院, 河南 信陽 464000)
中國是世界上人口數量眾多的國家, 其過高的人口密度對維護城市安全、 預防緊急公共事件都帶來很大困難。2020年一場突如其來的疫情改變了人們正常的生產生活秩序, 人群的過度聚集引發了很多起集中性的感染案例。例如, 在工業園區入口、 高校餐廳、 商場等人員密集場所, 由于人員的過度聚集, 造成了大量的集中性感染, 給疫情防控帶來了嚴峻的挑戰。目前, 在疫情防控常態化、 規范化下, 嚴格控制各公共場所中的人員數量是一種有效切斷疫情傳播鏈的方法。而通過在人群易聚集的公共場所布置攝像設備, 應用人群計數的方法, 可高效快捷地統計出實時人群信息, 相關人員可及時地對人群密集的場所施行引流、 分流、 限制出入等措施, 可有效控制疫情集中性擴散的風險。因此, 如何從圖像或視頻中及時準確地估計人群數目與密度是非常值得研究的課題。
透視效應是人群計數問題中不可忽視的關鍵問題, 由于不同人群距離監控設備之間的遠近不同, 在一張人群圖像中會存在多個尺度的人群, 對人群計數的精度產生干擾。為解決透視效應引起的人群尺度變化問題, 人們利用多列卷積(MCNN:
Multi-Column Convolutional Neural Network)或在不同卷積層上使用不同尺度的卷積核應對, 或采用擴張卷積替換不同的卷積核, 但上述方法仍存在許多不足, 不能完善地解決尺度變化問題。多列卷積會使網絡變得更加復雜, 計算復雜度的急劇增加將導致模型難以收斂或梯度爆炸等問題。Li等[1]提出在MCNN中由不同列卷積得到的特征幾乎相同, 其對解決尺度變化問題的貢獻很小。基于上述討論, 為更好地學習到不同尺度上的特征, 筆者采用一種編解碼網絡在不同層級的卷積上提取不同尺度的特征, 以應對透視效應帶來的尺度變化問題。通過對編解碼網絡遷移預訓練后的VGG16(Visual Geometry Group Network)[2]參數, 降低網絡的復雜度。
由于人群場景的復雜性, 樹木、 車輛等復雜背景會導致人群圖像存在大量遮擋, 只應用人群密度圖對抗背景的干擾并不完善, 難以達到對人群區域的特征增強效果。大多工作只考慮了高層卷積對高級語義信息的提取, 而低層卷積對遮擋邊緣細節的提取常常被忽略。受多層次注意力模塊[3]的啟發, 在不同的卷積層次上融合提取到的尺度注意力, 以對抗復雜背景的干擾。
人群圖像經過多次池化后, 其空間分辨率急劇下降, 丟失了大量的空間信息, 影響人群密度圖的生成。因此, 筆者在網絡的末端使用轉置卷積的方法對空間信息進行補充, 并提高了圖像分辨率。基于上述, 筆者提出了一種多層次融合與注意力機制的人群計數算法(MLFAM:
Multi-Level Fusion and Attention Mechanism Based Crowd Counting Algorithm), 其貢獻主要包括3個方面: 1) 引入編解碼網絡對人群圖像的高層語義信息和低層邊緣特征進行提取并生成尺度注意力, 由于不同層級的卷積包含不同的語義信息與尺度特征, 高低層特征的融合可有效解決由透視效應引發的尺度變化問題; 2) 提出多層次融合模塊在多個卷積層次上融合尺度注意力以對抗人群圖像中存在的嚴重遮擋與尺度變化問題; 3) 在解碼層和網絡的末端使用反池化與轉置卷積恢復由編碼層多層池化引起的分辨率下降、 空間信息與全局信息丟失等問題, 以生成更高質量的人群密度圖。應用遷移學習的思想, 在編解碼層中遷移了預訓練后的VGG16參數, 有效地降低了計算復雜度與網絡復雜度。
影響人群計數的主要因素是人群尺度變化、 復雜背景干擾等。為解決上述問題帶來的計數精度下降, 目前人們采用如下方法進行研究。
1.1 傳統方法
傳統方法分為基于回歸和基于檢測兩大類。基于檢測方法的主要思想是先檢測到每個行人, 再對行人數量進行相加, 得到總人數。Dollar等[4]使用類似于滑動窗口的方式從圖像中提取特征, 再通過分類器對行人進行識別, 最后將人數相加得到總人數。該方法在面對稀疏的人群場景時可以得到較好的結果, 但真實人群圖往往十分擁擠, 且行人間存在著嚴重的互相遮擋, 無法提取到完整的行人特征。因此, Felzenszealb等[5]設計與訓練了一個只利用人體部分特征判斷的分類器, 但該分類器在面對高密度的人群場景時, 仍存在較為嚴重的誤差。為解決上述方法在應對高密度人群場景時的缺陷, Chen等[6]提出了一種自適應的回歸預測方法, 通過從人群場景中提取的特征學習圖像特征到人群數量之間的映射關系。
綜上, 傳統方法主要依賴人工提取的特征對行人進行識別, 但該類方法不能很好反應人群圖像的真實情況, 且容易受到多尺度、 背景復雜等問題的干擾, 對人群計數的精度產生影響, 在實際應用中的預測效果較差。
1.2 基于深度學習方法
近年來, 隨著深度學習在計算機視覺任務[7-10]中的不斷發展, 應用卷積神經網絡對人群圖像進行特征提取與人數預測是目前最為有效的方法。卷積神經網絡通過提取的深度特征生成包含有人群空間與數量信息的人群密度圖, 再對密度圖逐像素求和得到總人數。針對人群圖像中的尺度變化問題, Zhang等[11]提出的多列卷積神經網絡(MCNN)使用多尺寸的卷積核提取不同感受野的特征。類似地, Sam等[12]提出了一種密度分類網絡(Switch-CNN:
Switching Convolutional Neural Network), 使用密度分類器自適應地輸出密度等級。Amirgholipour等[13]提出了一種基于金字塔密度感知注意力的網絡(PDANet:
Pyramid Density-Aware Attention based Network), 通過金字塔規模特征和兩個分支解碼模塊在提取不同尺度特征的同時抑制背景噪聲。Sindagi等[14]提出了一種多層次的自下而上和自上而下的融合網絡(MBTTBF:
Multi-level Bottom-Top and Top-Bottom Feature Fusion), 通過一種雙向的特征融合方式, 將低層特征融合到高層, 也將高層特征融合到低層, 從而提升了網絡對尺度信息的表達能力。
針對復雜背景造成的人群遮擋問題, 主要的解決方案為利用視覺注意力機制, 使網絡有意識地聚焦人群圖像中更有用的信息, 以提高計數精度。Liu等[15]提出了一種可形變卷積神經網絡(ADCrowdNet:
An Attention-Injective Deformable Convolutional Network), 通過一階段網絡AMG(Attention Map Generator)為二階段網絡DME(Density Map Estimator)提供人群區域候選與擁擠度等先驗信息的方式, 提升了網絡對復雜背景的過濾能力以及在不同人群分布下的性能。Ilyas等[16]提出了一種基于CNN(Convolutional Neural Network)的密集特征提取網絡, 利用密集特征提取模塊(DFEMs:
Dense Feature Extraction Modules)和通道注意模塊(CAM:
Channel Attention Module)將底層提取的特征通過密集連接傳播到上層, 并加入通道注意力以獲得全局信息, 提升了網絡在密集場景下的計數精度。
在應用卷積神經網絡模型解決人群計數問題時, 多數方法都是直接將人群圖映射為密度圖, 從而忽略了人群圖像背景產生的干擾。近年來提出的一些方法應用注意力機制解決背景干擾的問題, 但往往只考慮了由高層特征生成的注意力, 忽視了低層的細節特征, 其在面對如樹葉、 建筑物、 車輛等復雜背景的干擾時并不能很好的對人群密度圖進行預測。而傳統方法在應對由透視效應引起的人群尺度變化問題時, 無法進行有效的識別與判斷, 影響了人群密度圖的精度。因此, 筆者提出了一種多層次融合與注意力機制的人群計數算法(MLFAM), 其網絡結構如圖1所示。
圖1 MFAN網絡結構圖Fig.1 The diagram of MFAN network structure
該網絡結構包含尺度注意力提取與多層次融合兩個子網絡, 用于在多層級卷積上融合不同尺度的注意力, 以實現對密度圖更好地預測,
2.1 尺度注意力提取網絡
表1 多尺度注意力提取網絡參數配置
2.2 多層次融合網絡
多層次融合網絡由兩個階段構成, 分別為融合特征提取和人群密度圖的生成。第1階段采用預訓練的VGG16網絡中前13層卷積作為主干, 并在每個卷積塊之前增加一個特征融合操作, 即
(1)
2.3 損失函數
筆者采用歐幾里得距離衡量真實密度圖與預測密度圖之間的差值, 其定義如下
(2)
其中θ表示一組在網絡訓練時的參數,N表示訓練的樣本數量。Fd(xi,θ)表示在參數為θ的網絡中輸入xi圖像后輸出的預測密度圖,yt表示與輸入圖像xi對應的真實密度圖。
在2塊RTX 2080Ti GPU上進行實驗。網絡整體基于Pytorch架構, 使用初始學習率為1×10-5的Adam優化器對網絡參數優化, 并在除輸出層外的每個卷積層應用批正則化和Relu, 以提高網絡的訓練速度并有效地避免梯度消失和爆炸等情況。
3.1 真值的生成
現有的數據集大都提供原始圖像中人群的空間位置坐標與總人數。首先, 對原始圖像的真值圖進行裁剪, 得到4幅用于監督尺度注意力提取網絡的真值圖集。其次, 使用自適應的高斯核函數生成人群密度圖的真值, 自適應高斯核函數定義如下
(3)
3.2 評價標準
使用兩個在人群計數方法中常用的指標, 即平均絕對誤差(MAE:
Mean Absolute Error,EMAE)與均方誤差(MSE:
Mean Squared Error,EMSE)。其中MAE可以表示預測的準確性, MSE表示預測的魯棒性。具體定義如下
(4)
(5)
其中N表示測試圖像的總數量,Fdi表示對第i個圖像的預測人數,Di表示第i個圖像的真實人數。
3.3 在ShangHaitech數據集上的實驗
ShangHaitech數據集是一個多樣且擁擠的數據集, 該數據集包括了Part A和Part B兩個部分。其中Part A是從互聯網上搜集的高密度人群照片, 共有482張圖片, 每張圖片的平均人數達到了501人, 人數最多的一張圖片中有3 139人。Part B是通過在上海街頭布置的攝像設備抓拍得到的, 相對于Part A, 其人群密度較為稀疏, 圖片的平均人數為124人, 最多的一幅圖片中有578人。在Part A和Part B中分別設置300張圖片和400張圖片進行訓練, 182張圖片和316張圖片進行測試。
表2給出了使用MAE和MSE評價指標與最先進方法進行比較的結果。從表2可以看出, 在PartB數據集的測試中筆者方法明顯優于其他方法, MAE提高了17%;
MSE提高了25%, 有效證明了該方法的優越性。同時, 在Part A數據集上, MAE提高了1.6%, 可以說明本模型具有良好的準確性。但在MAE方面稍低于CAT-CNN(Crowd Attention Convolutional Neural Network)模型, 這表明筆者方法在預測的魯棒性上存在一定的問題。
表2 在ShangHaitech數據集上使用不同方法的性能比較
圖2給出了訓練后的模型對人群密度圖進行預測的結果, 并與其真值進行了對比, 第1列為原始圖像, 第2列為MFAN得到預測人群密度圖, 第3列為人群密度圖的真值。可以看出, 本模型生成了人群分布較為準確的密度圖, 有效地解決了復雜背景造成的遮擋問題。
圖2 在ShangHaitech數據集上的實驗對比Fig.2 Experimental comparison on the ShangHaitech dataset
3.4 在UCF_CC_50數據集上的實驗
UCF_CC_50數據集包含了50張具有不同視角和分辨率的圖像, 每張圖像的平均人數達到了1 280人, 最多的一幅圖像中更是達到了4 543人, 整個數據集共標記了63 075人。由于該數據集中可供選擇的圖像太少, 不便于進行訓練集和測試集的劃分, 因此采用五折交叉驗證的方法對數據集進行最大限度地利用。5次實驗結果如表3所示。
表3 在UCF_CC_50數據集上使用不同方法的性能比較
將五折交叉驗證得到結果與目前最先進的方法在MAE和MSE方面進行比較, 其結果如表3所示。可以看出, 相較于最先進的方法, 筆者方法的MAE提高了7%, 但在MSE方面稍差于PCC Net(Perspective Crowd Counting via Spatial Convolutional Network)。該結果有效地說明了本模型具有較高的準確性, 但在魯棒性方面還存在一定的問題。
圖3給出了訓練后的模型對人群密度進行預測的結果, 并與其真值進行了比較。第1列為原始圖像, 第2列為MFAN得到預測人群密度圖, 第3列為人群密度圖的真值。可以看出, 本模型可以較好的解決由透視效應引發的人群尺度變化問題, 可對擁擠的人群進行較好地預測并生成準確的人群密度圖。
圖3 在UCF_CC_50數據集上的實驗對比Fig.3 Experimental comparison on the UCF_CC_50 dataset
3.5 消融實驗
為證明MFAN結構的有效性, 在ShanghaiTech Part A數據集上進行了消融實驗, 結果如表4所示。主網絡即多層次融合網絡去除掉注意力模塊的其余部分, 其結果已優于大部分的經典人計數網絡, 證明了骨干網絡具有較為優秀的特征提取能力。在加入尺度注意力后, MFAN的計數精度得到顯著提升, 驗證了筆者所提方法的合理性。
表4 在ShangHaitech數據集上的消融實驗
筆者提出了一種多層次融合與注意力機制的編解碼人群計數網絡, 采用編解碼網絡進行尺度注意力提取, 并在多層次融合網絡中對提取到的尺度注意力進行融合, 在對抗復雜背景的同時, 有效地抑制了由透視效應帶來的尺度變化問題, 進而生成高質量的人群密度圖。經過實驗分析, 證明了MFAN具有較好的魯棒性與準確性。在未來的工作中, 將在其他人群計數數據集上進行實驗, 以充分說明MFAN在不同環境下的性能, 并考慮利用圖片與現實世界間空間關系的先驗知識, 以進一步改善尺度注意力的提取。
猜你喜歡尺度計數注意力讓注意力“飛”回來小雪花·成長指南(2022年1期)2022-04-09古人計數數學小靈通(1-2年級)(2021年11期)2021-12-02遞歸計數的六種方式中等數學(2020年8期)2020-11-26財產的五大尺度和五重應對內蒙古民族大學學報(社會科學版)(2020年2期)2020-11-06古代的計數方法小學生學習指導(低年級)(2020年4期)2020-06-02結繩計數意林(兒童繪本)(2018年3期)2018-05-09“揚眼”APP:讓注意力“變現”傳媒評論(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二課堂(課外活動版)(2016年2期)2016-10-21宇宙的尺度太空探索(2016年5期)2016-07-129時代英語·高三(2014年5期)2014-08-26