工作對于具有較強的音樂功底的人來說較容易較高的識別率,但是大部分的人沒有較強的音樂功底,所以必須教會計算機如何自動識別樂器音頻種類,從而達到準確識別樂器音頻信號的種類和省時省力的目的。
在聲音產生、處理、傳輸過程中都或多或少的摻雜著不同的噪聲,幾乎不存在純凈的噪聲,所以,一般聲音識別[3]系統需要對充滿復雜多樣的噪聲以及信噪比多變得聲音進行去噪[4]、提取特征[5]、分類[6]。
近年來,國內外眾多專家學者對聲音去噪采取了很多方法:小波變換、經驗模態分解(empirical mode decomposition , EMD)、獨立分量分析(independent component analysis, ICA)、集合經驗模態分解(ensemble empirical mode decomposition, EEMD)等。其中,傳統的ICA[7]具有相位、幅值、輸出順序不確定性;小波變換存在時域分辨率低;EMD[8]存在模態混疊和端點效應;EEMD[9]是優化后的EMD,雖然其成功解決了EMD的模態混疊,但是增加了計算量且不能完全去除高斯白噪聲,依然存在端點效應。針對這些算法的各種問題,本文提出了一種基于變分模態分解(variational mode decomposition, VMD)與小波變換相結合的聲音去噪算法。VMD[10]是由 Dragomiretskiy K提出的克服EMD的模態混疊的一種完全非遞歸的去噪算法,其運算效率高而且去噪效果更令人滿意。然而VMD無法一步到位的完全實現對聲音信號與噪聲信號的分離,所以根據經VMD分解后的各分量與原始聲音信號的相關系數來重構信號,之后再用小波變換繼續去除剩余的噪聲。
目前,最常用的特征參數主要有線性預測倒譜系數( linear prediction cepstral coefficent,LPCC )和梅爾頻率倒譜系數(mel frequency cepstrum coefficent,MFCC)。LPCC[11]不能很好地區分清音和濁音。而且LPCC 對噪聲敏感,在外界存在干擾時,識別率會大大降低。MFCC[12]主要描述的是聲音信號在頻率域上的能量分布,其能夠較好地模擬人耳聽覺系統的感知能力。因此,本文在對聲音信號去噪后提取聲音特征MFCC。
支持向量機(support vector machine,SVM)在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢。一般常用的用于優化SVM[13]參數從而提高識別率的算法有遺傳算法(genetic algorithm,GA)與粒子群算法(particle swarm optimization,PSO)。PSO與GA都致力于在自然特性的基礎上來模擬個體種群的適應性,均利用一定的變換規則通過搜索空間來求最優解。然而,PSO[14]沒有GA的交叉和變異操作,而是根據自己的速度阿里決定搜索;PSO有記憶,GA[15]沒有記憶;在GA算法中,染色體之間相互共享信息,PSO[16]算法中的粒子僅僅通過當前搜索到最優點進行共享信息。所以,在大多數情況下,PSO[17]可能比GA更快地收斂于最優解。本文采用PSO優化SVM的參數,從而提高樂器音頻信號分類的正確率。
1 VMD算法
VMD是一種自適應的時頻分析算法,算法不復雜,計算量小。其假設分解后的 每個分量IMF具有不同的中心頻率,其通過不斷迭代來更新各個有限帶寬以及其相應的中心頻率,從而得到若干個時域的模態分量。VMD自適應地分解聲音信號為若干個分量的過程主要是由變分問題的構造與求解組成。
1.1 變分問題的構造
1)每個模態經過Hilbert變換計算相應的解析信號,從而得到其單邊頻譜如式(1)所示:
3)計算以上解調信號的梯度的二范數,從而對各個模態的帶寬進行估計,得到一個變分約束問題如式(3):
1.2 變分問題的求解
1)為了有效的求解上述變分約束問題的最優解,VMD算法引入了二次懲罰因子α和拉格朗日乘法算子λt,來把約束性變分問題變為非約束性變分問題。構成的增廣拉格朗日表達式如式(4)所示:
2 基于VMD和小波去噪的算法
為了減少混合聲音中的有用的樂器音頻信號的損失,經過VMD算法重構的聲音是含有少量噪聲的聲音信號。所以,本文提出了基于VMD和小波去噪的算法,從而有效的保留有用的聲音信號,去除噪聲。具體的去噪步驟如下所示:
1)采用VMD算法對含有噪聲的樂器音頻信號進行分解,得到一系列的IMF。
2)計算各個IMF與純凈樂器音頻信號的相關系數,根據相關系數最大準則選擇含有少量噪聲的IMF作為主分量,并用主分量重構信號。
3)采用小波[18]對重構的樂器音頻信號進行后續去噪。其中,本文選擇VisuaShrink閾值準則的軟閾值函數的小波進行去噪。每個分解尺度采用不同的閾值,閾值T求解公式如式(9)所示:
3 PSO算法
PSO算法的基本思想是通過群體中個體之間的相互協作和共享信息來搜索最優解的。在搜索最優解的過程中,全局搜索能力與局部搜索能力的平衡關系對于成功求解最優解起著至關重要的作用。
4 實驗結果與分析
本實驗選用二胡、鋼琴、古箏、嗩吶等4種樂器作為樂器識別的種類。本實驗將每個樂器音頻文件切分成長度為1s的音頻文件,本文分別采集這4種樂器各250個樣本。
在預處理過程中,聲音信號加窗處理時采用漢明窗,幀長設置為256個樣本點,幀移設置為128個樣本點。在小波去噪過程中,本實驗采用sym8小波基作為小波分解的基函數,分解層數為5層。本文提取12維的MFCC特征。本文采用5折交叉驗證的SVM對特征參數進行訓練與識別,其中,SVM采用徑向基核函數作為核函數。
4.1 實驗一:去噪
從二胡、嗩吶、鋼琴、古箏的音頻樣本中隨機取出一個音頻樣本,這個被選擇的音頻樣本如圖1中的源音頻信號所示,向該音頻信號里加入-5dB的高斯白噪聲,圖1中的純凈音頻對應的混合音頻信號如2所示。圖1和圖2的橫坐標均為時間,縱坐標均為幅值。從圖1、2中可以看出,圖1與圖2相差甚遠;當原始聲音信號與高斯白噪聲混合在一起時,原始音頻信號完全被高斯白噪聲污染了,混合音頻信號的時域波形嚴重失真了。
為了驗證VMD[19]算法去噪性能的優越性,所以本文分別應用EMD算法,EEMD算法、VMD算法進行該混合音頻信號的去噪實驗。由于EMD算法與EEMD算法都無法確定分解的模態分量的數量,所以本文只展示它們的前8階IMF的時域波形圖。
圖3是EMD處理本文的混合信號的前4階IMF時域波形圖,圖4是EMD處理本文的混合信號的5~8階IMF時域波形圖。從圖3、4可以看出,通過EMD分解的前8階IMF對噪聲較為敏感,在分解過程中出現了端點效應。
圖5是EEMD處理本文的混合信號的前4階IMF時域波形圖,圖6是EEMD處理本文的混合信號的5~8階IMF時域波形圖。從圖5、6中可以看出,通過EEMD分解的前8階IMF的過程中也出現了端點效應,使得分解結果失真嚴重。
在利用VMD算法對信號進行變分模態分解前,必須要確定分解后的模態數量(K)。VMD算法對預處理之后的混合音頻信號進行分解得到多個變分模態分量以及各個分量相對應的中心頻率。由于每個變分模態分量是以中心頻率的大小來區分的,所以可以通過觀察對比分析各個模態分量的中心頻率來確定最適合的K值。本文判定當一次分解后,如果有兩個分量的中心頻率相差小于1000Hz時,則認為是過度分解。本文實驗對該混合音頻信號應用不同的K值來分解,分解后獲得的相應的中心頻率如表1所示。
從表1中可以看出:當K=5時,IMF4與IMF5的中心頻率分別3760.4Hz、4642.6Hz,兩者相差小于1000Hz,過度分解了。所以,本文的VMD分解實驗設置K=4。圖7是混合信號經過VMD算法分解后得到的4個IMF的時域波形圖。
本文先分別計算由EMD、EEMD、VMD得到的各個分量與純凈聲音信號的相關系數,然后分別選擇最大的分量分別進行聲音重構。EMD算法選擇第7個IMF進行聲音重構,EEMD算法選擇第6個IMF進行重構聲音,VMD算法選擇第1個IMF進行重構聲音。圖8~10分別是EMD、EEMD、VMD重構的聲音信號在時域的波形圖。
從圖8~10中的各個時域波形圖可以看出:EMD算法重構的聲音信號與原始純凈聲音相差大;EEMD去除噪聲的同時,也去除了大量有用的信息,而且有大量的高斯白噪聲被保存了下來;EEMD算法得到的重構聲音中除了保留了大量的高斯白噪聲,重構聲音的幅值與原始聲音相差較大;VMD算法去除了大部分高斯白噪聲,只余少量噪聲,其重構的聲音波形圖與原始聲音的波形最為相似,波形失真較小。因此,在對樂器音頻信號去噪試驗中, VMD算法比EMD算法和EEMD算法有更好的去噪效果,VMD算法重構的聲音信號的信噪比為2.426dB。
本文通過小波對VMD算法重構的聲音信號去噪后得到的波形圖如圖11所示。
從圖11中可以看出,小波將有用的聲音與高斯白噪聲相互分離,去噪后的波形圖更接近于原始聲音波形,小波后續去噪后得到的聲音信號的信噪比為4.116dB。
4.2 實驗二:分類
通過實驗一可知,VMD與小波聯合的去噪方法去噪效果好,所以本文在提取小波去噪后的聲音信號的MFCC特征后,通過用PSO算法優化參數的SVM算法對樂器音頻信號進行分類。
為了驗證被PSO算法優化的SVM能更好的提高分類的準確率,本文對比分析用不同分類方法進行樂器音頻信號分類的識別率大小。不同分類方法的識別率如表2所示,從表2可以看出PSO比GA對SVM有更好的優化能力;在SVM、被GA優化的SVM與被PSO優化的SVM這3種分類方法中,本文采取的分類方法獲得了最高的識別率。
5 結 論
本文先利用VMD算法去除樂器音頻信號的大部分噪聲,接著用小波進行后續去噪,然后提取MFCC[20]特征,最后用被PSO優化的SVM進行訓練與識別,從而達到對樂器音頻信號進行樂器種類識別的目的。本文通過仿真實驗分別進行EMD[21]、EEMD[22]與VMD的去噪效果對比分析、音頻種類的識別率的對比分析,從而得出本文的算法適合于樂器音頻信號的分類識別的結論。但是本文的研究對象是單個樂器獨奏的音頻信號,所以對于多個樂器的交響樂信號的處理仍需要后續的不斷研究。
參 考 文 獻:
[1]SULAM JEREMIAS, ROMANO YANIV, RAMDAS RONEN. Dynamical System Classification with Diffusion Embedding for ECG-Based Person Identification[J]. Signal Processing, 2016(130):403-411.
[2]王琪.西洋樂器的音色識別[D].濟南:山東大學,2015.
[3]REMES U, JUVELA L, BROWN G J, et al. Comparing Human and Automatic Speech Recognition in a Perceptual Restoration experiment[J]. Computer Speech & Language, 2016, 35:14-31.
[4]RAMDAS V, GORTHI S S R K, MISHRA D. Simultaneous Speech Coding and De-noising in a Dictionary Based Quantized CS Framework[J]. International Journal of Speech Technology, 2016, 19(3):509-523.
[5]LI K, WU X, MENG H. Intonation Classification for L2 English Speech Using Multi-distribution Deep Neural Networks[J]. Computer Speech & Language, 2016, 43:18-33.
[6]姚登舉, 詹曉娟, 張曉晶. 一種加權K-均值基因聚類算法[J]. 哈爾濱理工大學學報, 2017, 22(2):112-116.
[7]DU W, LEVINSCHWARTZ Y, FU G S, et al. The Role of Diversity in Complex ICA Algorithms for fMRI Analysis.[J]. Journal of Neuroscience Methods, 2016, 264:129-135.
[8]肖瑛, 殷福亮. 解相關 EMD:消除模態混疊的新方法[J]. 振動與沖擊, 2015, 34(4):25-29.
[9]WANG X, AN K, TANG L, et al. Short Term Prediction of Freeway Exiting Volume Based on SVM and KNN[J]. International Journal of Transportation Science & Technology, 2015, 4(3):337-352.
[10]LIU Y, YANG G, LI M, et al. Variational Mode Decomposition Denoising Combined the Detrended Fluctuation Analysis[A]. Signal Processing, 2016, 125:349-364.
[11]黃羿博,張秋余,袁占亭,等.融合MFCC和LPCC的語音感知哈希算法[J].華中科技大學學報(自然科學版),2015,43(2):124-128.
[12]王民,曹清菁,贠衛國,等.改進MFCC算法在朱鹮鳴聲個體識別中的應用[J].計算機工程與科學,2016,38(5):1052-1056.
[13]ZHANG M, JIAN T, ZHANG X, et al. Intelligent Diagnosis of Short Hydraulic Signal Based on Improved EEMD and SVM with Few Low-dimensional Training Samples[J]. Chinese Journal of Mechanical Engineering, 2016, 29(2):396-405.
[14]陸真,裴東興,劉莉,等.基于改進小波閾值函數和PSO的語音增強算法[J].激光雜志,2016,37(2):141-145.
[15]劉愛國,薛云濤,胡江鷺,等.基于GA優化SVM的風電功率的超短期預測[J].電力系統保護與控制,2015,43(2):90-95.
[16]王廣澤.改進粒子群算法在供應鏈庫存控制中的應用[J]. 哈爾濱理工大學學報, 2016,21(5):90-95.
[17]于桂芹, 李劉東, 袁永峰. 一種結合自適應慣性權重的混合粒子群算法[J]. 哈爾濱理工大學學報, 2016, 21(3):49-53.
[18]楊岳飛, 劉輝, 譚檢平. 帶噪語音信號小波去噪算法研究[J]. 計算機工程與應用, 2015, 51(14):211-213.
[19]ABDOOS A A, MIANAEI P K, GHADIKOLAEI M R. Combined VMD-SVM Based Feature Selection Method for Classification of Power Quality Events[J]. Applied Soft Computing, 2016, 38:637-646.
[20]BORDE P, VARPE A, MANZA R, et al. Recognition of Isolated Words Using Zernike and MFCC Features for Audio Visual Speech Recognition[J]. International Journal of Speech Technology, 2015, 18(2):167-175.
[21]李輝, 李洋, 楊東,等. 基于EMD相關去噪的風電機組振動噪聲抑制及特征頻率提取[J]. 電機與控制學報, 2016, 20(1):73-80.
[22]VOKELJ M, ZUPAN S, PREBIL I. EEMD-based Multiscale ICA Method for Slewing Bearing Fault Detection and Diagnosis[J]. Journal of Sound & Vibration, 2016, 370:394-423.
(編輯:溫澤宇)