石 瑞,艾山·吾買爾,早克熱·卡德爾,王中玉,杰恩斯艾力·努爾達艾勒
(1.**大學信息科學與工程學院,** 烏魯木齊 830046;
2.**大學**多語種信息技術實驗室,** 烏魯木齊 830046)
體育器材作為進行體育運動必不可少的一部分,在體育賽事和健身運動中都占有重要地位.近年來,人工智能的飛速發展,為體育發展帶來重大的機遇和影響.其中計算機視覺在體育領域中得到了廣泛的應用,如體育運動視頻分類[1]、體育動作識別[2]、人體姿態分析[3]、體育視頻描述[4]和智能健身指導等.在這些技術的影響下,促進了運動與人工智能的有機結合,使得全民健身活動和體育賽事向智能化、多樣化和科學化的方向發展.
圖片分類作為計算機視覺中重要根基,是圖像分割、物體跟蹤和行為識別等其他高層視覺任務的基礎,所以準確識別體育器材對于體育賽事的發展具有重要應用價值.隨著大規模標記數據的產生[5]及計算機計算能力的快速提升,卷積神經網絡(CNN)進入快速發展期,基于CNN的圖像分類方法無須經過煩瑣的預處理、特征提取等中間建模過程,采用端到端的結構,由數據驅動自動提取深層的抽象特征,減少了人工設計特征產生的不完備性.自2012年深度卷積神經網絡AlexNet[6]在圖像識別中取得巨大成功后,引爆了深度學習的熱潮,再到2014 年的GoogleNet[7]、VGG[8]和2015年的ResNet[9]神經網絡在計算機視覺任務中也取得越來越好的效果.但目前相關研究沒有涉及專門體育器材圖像分類,只是在公開的數據集[10]中的部分體育器材進行了探索,對更為復雜多樣的運動還少有涉及,這限制了人工智能技術在體育領域的實踐和應用.
豐富的圖像數據集是進行深度神經網絡建立和參數優化的基礎,當前體育器材分類算法還沒有公開的專用數據集,因此本文構建了一個涉及69類體育器材的數據集SED.對于多類別小規模數據集、單一模型預測效果不能達到預期的準確率,本文提出一種將模型融合與遷移學習相結合的體育器材圖像分類方法,使用在公開數據集上完成預訓練的經典卷積神經神經網絡模型ResNet50和InceptionV3分別進行圖像的特征提取.由于不同卷積神經網絡在提取特征時表現的學習過程不同,為了利用不同模型之間的互補性,達到更優化的性能,進行雙模型融合.然后將該融合的網絡用于69類體育器材圖像遷移訓練.
1.1 InceptionV3模型
Inception模型是Szegedy等[7]在ImageNet大型視覺識別挑戰中,提出的一種深度卷積神經網絡架構,并于2014年ILSVRC挑戰賽中獲得冠軍.InceptionV3模型是谷歌Inception系列里面的第三代模型,采用非對稱卷積(Asymmetric Convolutions)方式,對較大的卷積進行拆分操作,使得不同卷積核存在不同大小的感受野,模型將n×n的卷積分解成一維的n×1和1×n卷積的串聯,這樣更有利于圖像高維特征的提取,在提高模型參數計算效率的同時,也減少了模型過擬合.為了減少網絡的設計空間,采用模塊化結構,最后實現拼接,達到不同尺度的特征融合.InceptionV3模塊結構圖如圖1所示.
圖1 InceptionV3模塊結構圖
1.2 ResNet50模型
深度殘差網絡(Deep Residual Networks,ResNet)在2015年獲得ILSVRC比賽冠軍.網絡深度的增加可以提取更豐富的特征信息,但深度網絡會引發梯度消失和梯度爆炸問題,ResNet利用殘差學習來解決深度網絡的退化問題,使得訓練更深層次的網絡成為可能.ResNet50網絡有50層,首先對輸入做卷積操作,之后包含4個殘差塊(Residual Block),每一個殘差塊有2個基本的塊,分別為Conv Block和Identity Block,其中Conv Block作用是改變網絡的維度;
Identity Block用于加深網絡.每一個殘差塊結構如圖2所示.
圖2 殘差學習單元
將學習到的特征記為H(x),這樣殘差就表示為F(x)=H(x)-x,殘差單元可表示為:
yj=H(xj)+F(xj,Wj);
(1)
xj+1=f(yj).
(2)
其中:xj和xj+1分別表示第j個殘差單元的輸入與輸出,f為激活函數Relu.推導得從淺層j到深層J的學習特征可表示為
(3)
在實際操作中殘差不等于零,殘差函數會使得對堆積層在輸入特征基礎上學習到新的特征,以此擁有更好的性能.
1.3 遷移學習
在卷積神經網絡模型訓練中,當訓練效果不夠理想,訓練樣本不夠豐富,重新調整參數構建CNN模型比較麻煩時,會考慮使用遷移學習的方法[11].Zeiler等[12]讓卷積神經網絡在ImageNet數據集上進行預訓練,然后將網絡分別在圖像分類數據集Caltech-101和Caltech-256上進行遷移訓練和測試.其圖像分類準確率提高約40%.Donahue等[13]是把一個大規模數據集學習到的模型,遷移到其他數據集上進行預測.從而來解決某些數據集有標簽數據少的問題.由此看出遷移學習可以提高模型的分類能力.除了卷積神經網絡在各個領域的遷移學習研究,Razavian等[14]還對卷積神經網絡不同層次特征的遷移學習效果進行了探索,發現卷積神經網絡的高層特征相對于低層特征具有更好的遷移學習能力.
由于本文中體育器材數據集和ImageNet大規模數據集均由不同類別的圖像和類別數量組成,這2個數據集相互關聯但又存在一定的差異.因此將經典的預訓練CNN圖像分類模型與遷移學習相結合來進行體育器材圖片分類的研究是可行的.
特定領域的研究需要專門的圖像數據集,針對體育器材分類任務,目前尚未有標準的專用數據集,本文按照圖像分類任務文件格式構建了一個新的體育器材圖像數據集SED(Sports Equipment Dataset),該數據集基本囊括了現在常見的體育器材,包括球類運動器材、田徑賽器材、游泳器材、拳擊器材和健身訓練器材.圖3給出了SED部分體育器材樣本圖.
圖3 SED部分體育器材樣本
2.1 體育器材數據集的獲取
針對提出的數據,數據集的構造過程中主要采用網絡爬蟲技術(80%)和相機拍攝(20%)的方式獲取,具體構造流程:首先統計確定待構造數據集中體育器材種類名單,再根據確定的名單采用網絡爬蟲技術和人工拍照進行圖片的獲取,最后通過人工對圖片進行篩選.本文設計的數據采集與過濾標準,主要從類別多樣性和圖片的質量兩方面考慮.
2.1.1 圖片類別的多樣性
為了確保所構建的數據集類別的多樣化,我們查閱了有關體育運動所涉及的各種器材、裝備及用品,再結合體育賽事和健身運動項目,最后確定69種類別,如表1所示.
表1 體育器材數據集種類統計
2.1.2 圖片質量篩選
在圖像質量篩選過程中,主要采用人工篩選的方法.通過爬蟲采集到的圖片存在一些不能很好表征圖像的數據,例如按照體育器材名稱搜索的圖片與實際的體育器材不相符、圖片中體育器材的特征不明顯和圖片中包含多個體育器材無法對圖片給出對應的類別,如圖4所示.對這部分圖像進行篩除.最終構造出一個包含7 728張圖片的體育器材數據集.圖4(a)名稱與實際體育器材不相符,圖4(b)圖片中體育器材的特征不明顯,圖4(c)無法對一張圖片給出對應的類別
(a)花劍;
(b)起跑器;
(c)腹肌板
2.2 各類體育器材數據量
大規模和多樣化的體育器材數據集是有效訓練圖像分類模型并且增強其泛化能力的關鍵,數據集各類運動器材應保持充足的樣本數,考慮到體育器材種類繁多,但不同體育器材流行度不一樣,對于體育賽事所用的體育器材能夠采集到圖片數量會稍多,這會導致采集到的體育器材數量層次不齊,因此,通過對比收集難易程度以及篩選出的有用圖片數量來確定每一類的樣本數.最后確定每一類的樣本數量為到100~130張,體育器材數據集采集量的分布直方圖如圖5所示.
圖5 體育器材數據集采集量的分布直方圖
2.3 數據集各指標對比
目前沒有公開的體育器材識別研究數據集,所以針對現有公開數據集中所包含的體育器材種類進行分析,表2列出公開數據集中含有體育器材種類的數據,顯然,它們各自存在著一些問題,包括體育器材種類偏少、圖像背景單一、僅含體育器材區域樣本,數據樣本分布不均勻.本文在構建數據集時,考慮多方面因素如樣本的多樣性、樣本數量均衡性、場景多樣化使得數據集更符合真實場景的需要,有利于提高模型的泛化能力.
表2 數據集各指標對比
3.1 基本思想
不同模型具有不同卷積核大小和體系結構,從而能學習不同方面的圖像表示,于是考慮通過2個有差異的網絡來分別提取特征,融合后構成組合特征,再利用組合后的特征構來建體育器材圖片分類器.殘差網絡ResNet50通過跨層特征融合提高了其網絡特征提取能力,InceptionV3采用不同結構的 Inception 模塊堆疊,提高多種尺寸圖片的特征提取能力,并將不同尺寸的特征進行融合,豐富每層所提取的圖像特征.基于此將這2種模型作為特征提取器.
在深度學習中,經常會用到特征融合來提高模型性能[16],當前流行的融合方式主要有Add(Addition)和Concat(Concentrate).Add操作是信息之間的疊加,對輸入特征相對應的像素進行數學相加,增加每一維度下的信息量,不增加特征的數量,如ResNet網絡.Add操作公式為
(4)
其中:X={X1,X2,…,Xcx},Y={Y1,Y2,…,Xcy}分別為輸入的兩路特征,用Cx表示輸入特征X的通道數,Cy表示輸入特征Y的通道數,*表示卷積,1c表示1*1*c的張量,經過Add操作后,特征圖的通道數不變,C=Cx=Cy,Add操作要求兩路輸入特征維度一樣.
Concat經常用于特征的拼接,它可以將多個卷積層的特征或者是將輸出層的信息進行拼接,增加特征的數量,保留更多的特征信息,從而提高模型性能,如DenseNet[17].對輸入的兩路特征X,Y進行Concat操作,Concat操作也要求兩路輸入特征維度一致,但是Cx與Cy可以不相等,經過Concat操作后,特征圖的通道數為Cx+Cy.本文主要采用Concat融合方式來對提取的特征進行融合.公式為
(5)
3.2 模型融合
由于所構建的SED數據集中體育器材圖片數量遠不及訓練深度卷積神經網絡模型所需要的大規模數據集,僅依賴本文構建的數據集無法獲得性能較好的分類模型,因此采用遷移學習方法,為了防止模型過擬合且最大化保證遷移的知識不被破壞,凍結CNN模型全連接層之前的卷積層,來提取圖像的特征,對提取到的特征進行融合拼接,再利用數據集對新分類器參數進行訓練微調.對新信息的適應體現在遷移模塊后面的全連接層網絡上.具體的融合方法如圖6所示.
圖6 基于ResNet50和InceptionV3模型融合算法框架圖
本文提出的模型融合包括以下4個部分:預處理、特征提取、特征融合以及圖片分類.
(1)數據預處理:InceptionV3和ResNet50對輸入圖片尺寸大小要求不一致,所以設計兩種預處理方式,針對InceptionV3模型,將圖像尺寸標準化為299×299像素;
對于ResNet50模型,將圖像尺寸標準化為256×256像素.對兩種尺寸的圖片再進行隨機旋轉和水平翻轉,最后分別對圖像進行歸一標準化,輸入到特征提取網絡中;
(2)特征提取:將預處理后的圖片分別作為兩個卷積神經網絡模型的輸入,并刪除網絡模型的全連接層,凍結兩個網絡全連接層之前中的卷積模塊參數,對圖片進行特征提取;
(3)特征融合:將兩個網絡模型提取的特征進行融合;
(4)圖片分類:通過一層全連接層將融合的特征輸入到分類器中,完成分類.
4.1 實驗環境與參數設置
本文使用Pytorch框架作為體育器材圖片分類模型搭建和訓練平臺,表3為實驗的軟件及硬件配置.
表3 實驗環境配置參數
網絡模型的超參數設置如下:對收集來的數據按照8∶1∶1的方式劃分訓練集、驗證集和測試集.訓練時采用動量梯度下降法優化模型,動量大小為0.9,正則化系數為0.001,初始學習率大小為0.1,同時采用等間隔調整學習率方法來更新學習率大小.每50次學習率下降10%,模型訓練次數為100.Batch_size設置為64.
4.2 模型的評價標準
準確率是最常見的評價指標,通常來說,準確率越高,分類器越好.但是使用準確率評價模型存在一個問題,即當數據的類別不均衡時,準確率就不能客觀評價模型的優劣.鑒于此,又采用平均精確率P、平均召回率R和平均值F1指標來對模型做進一步比較.P是指預測為正例的數據里,預測正確的數據比例;
R是指真實為正例的數據里,預測正確的數據比例;
F1值又稱F1分數,同時兼顧分類模型的P和R,可看作是模型P和R的一種加權平均,計算公式分別為:
(6)
(7)
(8)
(9)
式中:TTP表示真正例,即真實類別為正例,預測類別為正例;
TTn表示真負例,即真實類別為負例,預測類別為負例;
TFP表示假正例,即真實類別為負例,預測類別為正例;
TFn表示假負例,即真實類別為正例,預測類別為負例.
為了測量多分類任務中不同模型之間的性能差異,采用平均值,即所有類別的每一個統計指標值的算數平均值進行評價[18].首先,計算每個混淆矩陣的精確度Pi和召回率Ri,將其表示為(P1,R1),(P2,R2),…,(Pn,Rn).再通過計算各精確率和召回率的平均值,得到平均精確率P、平均召回率R和平均F1值,計算公式通過公式(10)—(12)給出.
(10)
(11)
(12)
4.3 實驗結果與分析
4.3.1 基于ResNet50和InceptionV3模型融合實驗結果對比
本文實驗均在自建的SED數據集上進行,使用經典CNN模型AlexNet、Vgg16、ResNet50、InceptionV3與本文方法進行實驗對比,對比結果如表4所示,本文算法相較于單個CNN模型在A,P,R,F1上都有較為明顯的提升.與單模型ResNet50相比A,P,R,F1分別提升2%,1.6%,1.7%,1.5%.和單模型InceptionV3相比A,P,R,F1分別提升6.8%,7.6%,7.5%,7.8%.這驗證了將模型特征的融合確實能對圖片分類有提升效果.
表4 各模型在自建數據集中測試結果對比
4.3.2 遷移學習對實驗結果的影響
為了驗證遷移學習對CNN在SED數據集上的必要性和有效性,進行了遷移學習和不使用遷移學習的對比實驗,實驗結果如表5所示.實驗結果表明,基于遷移學習的融合模型在測試集上的A,P,R和F1值較不使用遷移學習融合模型分別提升21%,18%,20%,20%.采用遷移學習方法后,數據限制就不再明顯,這對于小數據集而言,提升效果非常顯著.
表5 遷移學習與不使用遷移學習結果對比(*代表不使用遷移學習)
4.3.3 消融實驗
為了進一步驗證選取ResNet50和InceptionV3模型進行融合的有效性,再次做了相關的消融實驗,比較不同模型融合的檢測性能,實驗結果如表4所示.其中將A和B融合的模型用Cat_A_B表示,例如Cat_AlexNet_Vgg16代表將AlexNet和Vgg16模型進行融合.
對于模型融合來說,通常可獲得比單模型更好的泛化性,至少對于較弱模型來說能有一定的提升(見表6),表6中,Cat_AlexNet_Vgg16、Cat_AlexNet_ResNet50、Cat_Vgg16_InceptionV3、Cat_ResNet50_InceptionV3相比于表現較弱的單模型性能都有一定提升.但也發現Cat_AlexNet_InceptionV3和Cat_Vgg16_ResNet50沒有明顯的提升.分析原因,通過表4中的單模型結果來看,對于ResNet50和Vgg16在SED上表現較好,這2個模型雖然在結構上有一定的區別,但本質上是通過不斷加深網絡結構來提升性能.對于我們自建的體育器材數據集涉及種類較多,其中超類中的很多子類別差異性較小,所以通過較深的網絡模型來提取更豐富的特征從而達到較好的分類效果.模型的融合一般是來做信息互補的,將2個較為相似的網絡進行融合,效果并不會變好.所以Cat_Vgg16_ResNet50效果提升并不明顯.
表6 不同模型融合測試結果對比
對于單模型AlexNet和InceptionV3在SED上效果較差,分析原因可知,AlexNet的深度只有8層,且SED數據集涉及樣本較多但數據數量較少,學不出較好的特征,從而導致效果較差.對于InceptionV3網絡,其目標并不是精準化特征提取,而是通過使網絡變寬,提高特征張量寬度,復用更多的特征,來提高分類性能.這種網絡更適合于圖像中目標大小差別很大的圖片.對于本文的數據集,涉及的場景較豐富,同種器材在不同場景下的大小也不一致,這給InceptionV3網絡帶來一定挑戰,將這兩個較弱的模型融合后,并不能取得很好的效果.因此要選出好而不同的模型進行融合才能達到更好的效果,對于本文的數據集,選取選取2個網絡結構差異較大的網絡ResNet50和InceptionV3結合,ResNet50在深度上有優勢,InceptionV3在網絡的寬度上有優勢,將二者的優勢進行互補.從而達到提升分類性能的效果.
此外還比較了兩種特征融合方式,結果如表7所示,由表7可發現基于Add操作的融合方式的性能低于基于Concat操作.分析原因:(1)直接Add操作會對信息造成負面影響.如果兩個被加的向量不具備同類特征含義時,通過Add操作,會得到新的特征,這個新的特征可以反映原始特征的一些特性,但是原始特征的一些信息也會在這個過程中損失,Concat是將原始特征直接拼接,讓網絡去學習如何融合特征,在這個過程中信息不會損失.(2)逐元素加和的方式要求不同層的特征具有完全一致的通道數量.Concat不受通道數量的限制,拼接為橫向或縱向空間上的疊加.雖然會改變維度,但能夠保留更多的特征信息.
表7 不同融合方法的模型性能比較
4.3.4 基于ResNet50和InceptionV3模型融合的F1值分析
為進一步驗證本文方法的有效性,對ResNet50、InceptionV3和Cat_ResNet50_InceptionV3 3種模型在所有超類上的F1值進行比較.如表8所示.
由表8可知,該體育器材圖片數據集在單模型上訓練時,ResNet50在所有的超類中能表現出較好的結果,再次證明了ResNet50網絡的性能優勢.利用Concat的融合將ResNet50和InceptionV3模型融合后,融合模型在球類、冰雪器材和健身器材類的F1值比ResNet50的F1值分別提升了3.6%,5.9%,2.0%.相比較于InceptionV3,F1值在所有超類中都有提高,幅度在1.7%~11.4%之間.雖然InceptionV3在總體超類上的性能低于ResNet50,但是對于超類中的子類,與ResNet50融合后還是有一定的優勢,為了更直觀的說明這種優勢,列舉了通過融合InceptionV3和ResNet50模型后F1值提升較為明顯的類別,如表9所示.針對下述舉例的類別,雖然在每個單模型表現的性能不是很好,但是在模型進行融合后上,效果有很顯著地提升.
表9 提升效果明顯類別的F1值
4.3.5 識別結果測試
測試了6張圖片,分別將圖片傳入Resnet50和Cat_ResNet50_InceptionV3模型中進行分類識別,結果如圖7所示,可以看出,模型的融合能夠提升一定的識別效率.因此本文提出模型特征融合方法對體育器材圖像識別是有效的.
圖7 體育器材圖片識別效果
針對現有基準體育器材圖像數據集的種類較少、缺乏實用性等問題,本文構建了體育器材數據集SED.相比之下,SED數據集在種類數量和可拓展性方面具有較大的優勢.當樣本的種類增加但數量卻不足時,會帶來分類精確率和泛化能力弱的問題,基于此本文提出模型融合與遷移學習相結合的體育器材分類方法,通過模型融合結合多方位信息來獲取更準確的分類,再利用遷移學習來解決體育器材數據有限的問題.最終在測試集上得到A為85%,P為85.6%,R為85%,平均F1值為84.7%.相比于單獨使用卷積神經網絡模型的方法準確率有所提升.但是目前仍然有一些尚待解決和值得研究的問題:(1)目前采用的融合方法,僅僅是對兩個模型提取出的特征進行單純地融合,下一步希望探索嘗試更有效的特征融合方法.(2)需進一步擴建數據集,并嘗試將目標檢測功能添加到模型中,進一步提高模型的識別率和實用性.(3)目前僅僅是在實驗室搜集的圖片集上達到不錯的分類效果,還需要其他的圖片進行驗證.
猜你喜歡體育器材卷積分類室外體育器材的維護保養研究文體用品與科技(2022年20期)2022-11-20基于3D-Winograd的快速卷積算法設計及FPGA實現北京航空航天大學學報(2021年9期)2021-11-02分類算一算數學小靈通(1-2年級)(2021年4期)2021-06-09卷積神經網絡的分析與設計電子制作(2019年13期)2020-01-14學校體育器材的使用與保管研究魅力中國(2019年7期)2019-12-18從濾波器理解卷積電子制作(2019年11期)2019-07-04分類討論求坐標中學生數理化·七年級數學人教版(2019年4期)2019-05-20數據分析中的分類討論中學生數理化·七年級數學人教版(2018年6期)2018-06-26基于傅里葉域卷積表示的目標跟蹤算法北京航空航天大學學報(2018年1期)2018-04-20教你一招:數的分類初中生世界·七年級(2017年9期)2017-10-13