孫鄭依 馮濤 王晶
北京工商大學 北京 100048
壓縮機是空調系統(tǒng)的核心組件,壓縮機殼體的振動與其運行狀態(tài)密切相關,故可通過壓縮機殼體的振動信號來判別壓縮機的運作狀況。
基于深度學習技術構建的異常檢測模型具有強大的自主學習能力以及良好的特征提取能力,在學習高維數(shù)據(jù)、時間數(shù)據(jù)等復雜數(shù)據(jù)的表達、表示方面顯示出了巨大的能力,突破了不同學習任務的界限,可以有效地進行異常檢測任務[1-5]。徐豐甜等[6]針對往復壓縮機氣閥故障根據(jù)溫度數(shù)據(jù)有不同的表現(xiàn)特點,提出一種基于主成分分析(PCA)法建立基于徑向基函數(shù)的故障異常監(jiān)測模型,實現(xiàn)往復式壓縮機故障異常自動檢測。王遠濤等[7]提出一種基于自編碼器模型的制冷壓縮機異常振動檢測方法,探討了自編碼器迭代次數(shù)、隱藏層數(shù)以及訓練樣本數(shù)量對判定準確率的影響,結果表明,自編碼器模型可以應用于制冷壓縮機異常振動檢測任務并且樣本數(shù)量對準確率影響顯著。劉恒等[8]針對壓縮機故障樣本稀缺的特點,提出一種基于變分自編碼器模型提取正常樣本共性特征進而實現(xiàn)故障檢測的方法。
基于分類的深度學習模型可以保證壓縮機正異常判斷的準確性,但標簽準確的高質量數(shù)據(jù)是確保分類模型判別精度的基礎。隨著壓縮機生產(chǎn)技術的提升,故障壓縮機在生產(chǎn)中出現(xiàn)的幾率越來越低,正常樣本和故障樣本的比例極不均衡;
大規(guī)模生產(chǎn)加大了人工現(xiàn)場實時標注的難度,很容易出現(xiàn)樣本標簽標注錯誤的情況。產(chǎn)品生產(chǎn)過程中,各種加工都是根據(jù)設計參數(shù)進行,所以生產(chǎn)出來的正常機都具有趨同的特性,而故障機基本都是偏離正常參數(shù)的結果,在特征空間中表現(xiàn)出較大的離散度,這些問題對分類模型訓練和評估帶來了極大困難。本文針對這一難題,研究了大規(guī)模樣本標簽的校正方法,采用基于深度學習的自動編碼器神經(jīng)網(wǎng)絡模型,使用漸進調整方式訓練自動編碼器,基于重構誤差序列和重構損失值分布曲線提煉樣本,糾正錯誤標簽,為后續(xù)分類模型提供標簽準確的樣本。
自動編碼器是一種無監(jiān)督學習模型,它由編碼器(Encoder)和解碼器(Decoder)兩部分構成,如圖1所示。編碼器將輸入數(shù)據(jù)映射到低維表示,壓縮為一個特征向量,其中包含了輸入數(shù)據(jù)的重要特征;
解碼器將得到的低維表示重新映射回原始數(shù)據(jù)的維度,它的目標是盡可能準確地重構原始數(shù)據(jù)。
圖1 自編碼器網(wǎng)絡結構示意圖
對于第k個輸入數(shù)據(jù):
其編碼過程為:
解碼過程為:
式中:Hk為神經(jīng)網(wǎng)絡的隱含特征;
為神經(jīng)網(wǎng)絡的重構向量;
W0、W1為權重;
b0、b1為偏置量;
σ0、σ1為ReLU激活函數(shù)。
自動編碼器訓練過程旨在最小化重構誤差即原始輸入數(shù)據(jù)與解碼器輸出數(shù)據(jù)之間的差異。訓練過程可以通過最小化重構誤差的損失函數(shù)來實現(xiàn)。常見的損失函數(shù)包括均方差損失(Mean Squared Error,MSE)和二進制交叉熵損失(Binary Cross Entropy Loss),本文采取均方差損失。
損失函數(shù)為:
本文研究采用Adam優(yōu)化器,其結合了動量法和自適應學習率的特性,能夠在不同參數(shù)和不同數(shù)據(jù)的情況下更好地適應和調整學習率,實現(xiàn)對模型參數(shù)的高效優(yōu)化。其更新公式如下:
壓縮機樣本標簽主要依靠人工標注的方式,當面對大規(guī)模樣本時,人工標注難免會出現(xiàn)偏差,導致標簽與真實情況不符合,直接影響模型分類性能。但人工標注出現(xiàn)偏差屬于小概率事件,大部分樣本標簽與實際情況是相符的,通過人工標注得到的數(shù)據(jù)仍對模型訓練具有指導性意義。因此,本文利用自動編碼器模型,基于人工標注的方式制作初始數(shù)據(jù)集,逐步校正樣本標簽,得到純凈的正常壓縮機數(shù)據(jù)集和故障壓縮機數(shù)據(jù)集,為分類模型奠定數(shù)據(jù)基礎。
訓練時單純用正常壓縮機樣本訓練自動編碼器,測試時將全部樣本輸入自動編碼器,將每個樣本的重構誤差從小到大排序得到重構誤差序列。由于生產(chǎn)線在同一生產(chǎn)模式下,因此故障壓縮機與正常壓縮機必然存在一定差異,則其均方差損失較正常壓縮機要大一些,對此,將重構誤差序列頭部對應的樣本真實標簽修改為正常機,尾部修改故障機,進行數(shù)據(jù)集的迭代更新。具體實施流程如圖2。
圖2 流程圖
(1)采集樣本制作初始數(shù)據(jù)集,搭建模型架構,確定損失函數(shù)、優(yōu)化器、學習率等參數(shù);
(2)挑選初始數(shù)據(jù)集中標簽為正常壓縮機的部分樣本作為初始訓練集,訓練自動編碼器;
(3)初始數(shù)據(jù)集全部樣本依次輸入訓練好的自動編碼器并統(tǒng)計每個樣本損失值,從小到大依次排列得到重構誤差序列;
(4)根據(jù)重構誤差序列,結合當前標簽畫出正常樣本與故障樣本重構損失值的分布曲線;
(5)修改重構誤差序列頭部樣本的標簽為正常壓縮機,尾部為故障壓縮機,生成更新數(shù)據(jù)集,頭部樣本作為更新訓練集;
(6)根據(jù)更新訓練集,繼續(xù)訓練上一步得到的自編碼器;
(7)根據(jù)更新數(shù)據(jù)集,重復第三步,直至正常數(shù)據(jù)與異常數(shù)據(jù)的分布曲線區(qū)分開來;
(8)基于更新數(shù)據(jù)集和重構損失值分布曲線,劃分出“干凈”的正常樣本數(shù)據(jù)集和故障樣本數(shù)據(jù)集。
2.1 數(shù)據(jù)采集與數(shù)據(jù)集制作
數(shù)據(jù)集來源于大量生產(chǎn)線上空調壓縮機實測振動數(shù)據(jù),如圖3所示,壓縮機被放置在托盤上,并隨生產(chǎn)線移動。當托盤到達檢測工位時,通過下氣缸將托盤頂起,使其離開生產(chǎn)線,以減小傳送鏈自身的振動對測量結果的影響。同時,上氣缸下壓,確保加速度計與壓縮機殼體緊密貼合。為了確保加速度計與壓縮機殼體的可靠接觸,在上氣缸和加速度計之間采用彈性阻尼環(huán)進行連接。在生產(chǎn)線上使用加速度計來采集壓縮機殼體的振動信號,通過NI9234采集卡進行數(shù)字信號采集并做傅里葉變換作為自編碼器的數(shù)據(jù)集。
圖3 數(shù)據(jù)采集示意圖
圖4~5分別為正常壓縮機頻譜和故障壓縮機頻譜,為歸納統(tǒng)計壓縮機頻譜數(shù)據(jù)的分布特性,對其做最大最小值歸一化處理。自編碼器的編碼器和解碼器由神經(jīng)元和激活函數(shù)構成,歸一化處理能夠加速神經(jīng)網(wǎng)絡學習速率,加快模型收斂速度。
圖4 正常壓縮機頻譜
圖5 故障壓縮機頻譜
圖中橫軸為頻率,單位Hz;
縱軸為幅值強度,單位dB。本研究中,選取壓縮機數(shù)據(jù)的頻率成分對應的幅值強度作為模型的輸入。在生產(chǎn)線上采集的壓縮機振動數(shù)據(jù)共有14784條數(shù)據(jù),將其作為初始數(shù)據(jù)集,標簽均由人工方式在采集過程中同步給出。其中,初始正常壓縮機樣本數(shù)為14598,初始故障壓縮機樣本數(shù)為186,隨機挑選初始正常壓縮機樣本中的5000條數(shù)據(jù)作為初始訓練集。根據(jù)得到的重構誤差序列修改樣本標簽,得到更新數(shù)據(jù)集和更新訓練集,如表1所示。
表1 數(shù)據(jù)集說明
本研究的核心目標是讓參與訓練自編碼器的正常機數(shù)據(jù)越純越好,使得自動編碼器的編碼器部分學得樣本的特征向量能更準確、充分地表達正常壓縮機數(shù)據(jù)特征,解碼器重構時能夠對正常壓縮機數(shù)據(jù)進行一個很好的還原;
當給自編碼器輸入故障機數(shù)據(jù)時,由于兩類數(shù)據(jù)存在一定差異,使得故障壓縮機樣本的損失值會稍大一些,這樣可選取分布靠前的樣本標注為正常壓縮機;
分布靠后的樣本標注為故障壓縮機,最終得到兩類樣本的“干凈”數(shù)據(jù)集,為分類模型提供準確的訓練樣本。
2.2 自動編碼器模型搭建
本研究基于PyTorch深度學習框架搭建自編碼器網(wǎng)絡模型,模型架構如圖6所示。
圖6 編碼器網(wǎng)絡結構圖
該模型架構屬于堆疊式自動編碼器的形式,編碼器和解碼器由多個線形層和激活函數(shù)組成,輸入層為了匹配輸入的頻譜數(shù)據(jù)共設置876個神經(jīng)元,編碼器將876維的頻譜數(shù)據(jù)逐漸壓縮至20維作為輸入數(shù)據(jù)特征向量的表示。激活函數(shù)選用了ReLU激活函數(shù)和Sigmoid激活函數(shù),前者具備良好的非線性建模能力,后者可以將輸出限制在0~1之間來匹配輸入數(shù)據(jù)。本研究采用均方差損失函數(shù)(MSELoss)作為重構誤差的度量,并使用Adam優(yōu)化器來更新模型參數(shù)。
研究對象為某廠商生產(chǎn)的汽車空調壓縮機,數(shù)據(jù)均由生產(chǎn)線上實測而得。基于圖2,本研究共進行80000次迭代訓練、修改標簽47次,經(jīng)過修改后,數(shù)據(jù)集中正常壓縮機樣本數(shù)變?yōu)?4519,故障壓縮機樣本數(shù)為265。為了評估模型的性能,本研究跟蹤了損失函數(shù)隨訓練迭代次數(shù)的變化,截取部分損失函數(shù)曲線如圖7所示。
圖7 損失函數(shù)曲線
損失函數(shù)值在訓練開始時較高,但隨著訓練的進行,損失曲線呈梯度下降趨勢,說明自動編碼器正在學習輸入數(shù)據(jù)的特征。如圖7 a)、b),在訓練前期,損失下降的較快,訓練振動的幅度較大,在相同的迭代次數(shù)情況下,損失函數(shù)值下降范圍大概在0.0013左右;
但隨著訓練的進行,下降趨勢逐步減小,如圖7 c)、d),相同的迭代次數(shù)損失函數(shù)值下降范圍很小,此時加大了重構誤差序列頭部所占比例,增加訓練樣本并增大batchsize參數(shù),使模型加快收斂速度、梯度下降方向準確度增加、訓練振動幅度減小。本文得到的自動編碼器模型對數(shù)據(jù)的重構結果如圖8,重構損失值分布曲線如圖9所示。
圖8 重構結果
圖9 重構損失值分布曲線
如圖9所示,將全部樣本損失值從小到大排序并等間隔劃分區(qū)間,正常壓縮機樣本分布曲線能夠區(qū)別于故障壓縮機樣本分布曲線,即正常壓縮機整體損失值偏小,故障壓縮機整體損失值偏大一些。針對這一分布特性,可選定某一區(qū)間界限,挑選出樣本標簽與真實情況準確無誤的樣本劃為分類模型的數(shù)據(jù)集。在本研究中,圖中第50個區(qū)間內(nèi)的某一損失值0.00054,設為正常壓縮機樣本標簽的分界線;
第125個區(qū)間內(nèi)的某一損失值0.0014,設為故障壓縮機樣本標簽的分界線。在現(xiàn)有樣本中,若樣本輸入自編碼器模型得到的損失值小于0.00054可認為其真實標簽為正常壓縮機;
大于0.0014則認為其真實標簽為故障壓縮機。
訓練好的自動編碼器模型也可作為人工實時標注現(xiàn)場的輔助工具,若人工標注為正常壓縮機,且其損失值小于0.00054;
或人工標注為故障壓縮機,其損失值大于0.0014,則可直接劃分到分類模型數(shù)據(jù)集當中。
在原始數(shù)據(jù)集中,共包含14598個正常壓縮機和186個故障壓縮機,經(jīng)過本研究校正后,正常壓縮機個數(shù)變?yōu)?4519,故障壓縮機個數(shù)變?yōu)?65。如表2所示,在正常壓縮機當中,標簽未被修改即人工標注正確的個數(shù)為14400,被修改即人工標注錯誤的個數(shù)為198;
故障壓縮機中,“標簽未被修改”即人工標注正確的個數(shù)為67,“標簽被修改”即人工標注錯誤的個數(shù)為119,所修改的樣本標簽經(jīng)過人工復聽認可。
表2 標簽校正結果
選擇表2中“標簽未被修改”列中的樣本作為后續(xù)分類模型的訓練測試樣本,因為這類樣本的標簽得到了人工和自編碼器模型的雙重認定,確保了樣本標簽的準確性。
本文提出一種針對大規(guī)模樣本標簽的校正方法,通過樣本漸進調整,完成了自動編碼器模型的訓練,實現(xiàn)了樣本標簽的校正。在樣本漸進調整的訓練過程中,自編碼器損失值梯度逐步下降,最終收斂,表明自編碼器可用于樣本漸進調整。本研究可對工業(yè)現(xiàn)場采集的大規(guī)模樣本進行標簽校正,可為后續(xù)分類模型的訓練、驗證和測試提供了標簽更為準確的數(shù)據(jù)樣本。
猜你喜歡 編碼器壓縮機重構 長城敘事的重構攝影世界(2022年1期)2022-01-21BOG壓縮機在小型LNG船舶上的應用船舶標準化工程師(2019年4期)2019-07-24北方大陸 重構未來知識經(jīng)濟·中國直銷(2018年12期)2018-12-29淺析特大型往復壓縮機組的安裝石油化工建設(2018年3期)2018-11-30壓縮機組智能控制與節(jié)能增效石油化工自動化(2018年5期)2018-11-14基于FPGA的同步機軸角編碼器成都信息工程大學學報(2018年3期)2018-08-29北京的重構與再造商周刊(2017年6期)2017-08-22基于PRBS檢測的8B/IOB編碼器設計電子設計工程(2017年20期)2017-02-10論中止行為及其對中止犯的重構山東大學法律評論(2016年0期)2016-08-16JESD204B接口協(xié)議中的8B10B編碼器設計電子器件(2015年5期)2015-12-29