基金項目:本文系國家自然科學基金項目“微博環境下實時主動感知網絡輿情事件的多核方法研究”(項目編號:71303075);中國博士后科學基金項目“基于核方法的網絡非常規突發事件的智能識別與應用研究”(項目編號:2012M511697)的研究成果之一。
作者簡介:黃煒(1979-),男,副教授,博士后,碩士生導師,研究方向:網絡輿情,網絡信息智能處理。·綜述·
〔摘要〕面對網絡大數據的挑戰,特征信息的模式識別已成為信息情報領域的研究熱點。本文對模式識別的現狀進行了剖析,研究了現廣泛運用于信息模式識別中的核方法。梳理并對比分析了核方法的各種算法理念與思想,介紹了核算法的設計、核函數的構造與核參數的選擇方法,特別探討了在網絡輿情信息模式識別中的應用前景。
〔關鍵詞〕模式識別;核方法;核參數;支持向量機;信息模式
DOI:10.3969/j.issn.1008-0821.2014.03.036
〔中圖分類號〕G2528〔文獻標識碼〕A〔文章編號〕1008-0821(2014)03-0168-09
Review on Kernel Algorithm of Information Pattern RecognitionHuang Wei1,2Liu Kun1
(1.School of Management,Hubei University of Technology,Wuhan 430068,China;
2.School of Management,Wuhan University of Technology,Wuhan 430070,China)
〔Abstract〕Facing the challenge of big data from the network,the characteristic information of pattern recognition has become a hot research topic in the field of information intelligence.This paper analyzed the status quo of pattern recognition,and explored the kernel methods that widely used in information pattern recognition.By analyzing and combing the different kinds of kernel idea and thought that applied in kernel algorithm,the paper introduced the design of the kernel algorithm,the construction of the kernel function and the method of selecting kernel parameters,especially discussed the application prospect in network public opinion information pattern recognition.
〔Keywords〕pattern recognition;kernel methods;kernel parameters;support vector machine;information pattern
隨著人工智能的發展,人們亟待解決機器學習的各項問題,模式識別是人工智能中一項基本智能,并應用于我們生活中的各個領域,如生物識別(語音識別、人臉識別、指紋識別等)、數據挖掘、文本分類等。20世紀60年代初,模式識別迅速發展并成為一門新的學科。但是傳統的模式識別方法在大數據環境下,處理多類別的復雜的高維模式識別問題時效果不佳,在各模式存在復雜的非線性關系時甚至無解。20世紀90年代中期,出現了基于核的學習方法(簡稱為核方法),該方法最終使得研究人員能夠高效地分析復雜非線性問題。
本文以當前核方法的重點研究方向為向導,收集并整理期刊文獻179篇,學位論文9篇,以及基于核方法的模式識別書籍2本。其中模式識別相關文獻16篇,核方法87篇,核函數及核參數56篇,增量學習相關文獻20篇,多核學習相關文獻8篇,大數據相關文獻3篇。文獻統計如圖1所示。
本文重在總結和分析經典的核算法,并對核函數和核參數的選擇進行探究。同時對在線動態模型(增量學習)的原理和方法進行概述,最后對多核學習也有一定的介紹和探討。通過對當前核方法的探究,給當前網絡大數據環境下的數據處理提出一種可行的理論方法,特別是給網絡信息情報模式識別的應用提供一種思路。
1特征信息的模式識別
一般認為,模式是通過對具體的事物進行觀測所得到的具有時間與空間分布的信息。模式所屬類別或同一類中
圖1文獻統計
模式的總體稱為模式類,其中個別具體的模式往往稱為樣本。模式識別(Pattern Recognition)是對表征事物或現象的各種形式的(數值的、文字的和邏輯關系的)信息進行處理和分析,以及對事物或現象進行描述、辨認、分類和解釋的過程[1]。
通常情況下,希望模式識別的算法能夠具備3個性質:計算的高效性、健壯性以及統計穩定性[2]。傳統的模式識別方法大致可以分為模板匹配、統計識別、結構識別、模糊識別和人工神經網絡識別5種[3-4]。統計模式識別和結構模式識別是模式識別領域的兩大主流研究方向,模糊模式識別和神經元網絡模式識別是新近發展起來的模式識別方法。然而,大量實際的模式識別問題是具有多類別的高維的復雜模式的識別,且各模式之間存在復雜的非線性關系,傳統的統計模式識別方法能高效率地解決具有線性關系的模式識別問題,但無法高效率地檢測非線性關系。此外,傳統統計學主要研究的是漸進理論,即當樣本數趨近于無窮大的統計性質,而現實中的模式識別問題由于各種因素的約束樣本數往往是有限的。雖然機器學習中神經網絡模式識別的發展使得檢測非線性模式成為可能,然而這些非線性算法是建立在梯度下降法和貪婪啟發式法的基礎上,因而受到局部極小化的限制。這些算法還經常遇到過擬合的問題,“過學習”的特點使得得出的算法結構表現出很差的推廣能力。
而面對當前網絡信息環境,網絡信息呈現的特點是:(1)數量龐大、增長迅速;(2)內容豐富、覆蓋面廣;(3)信息質量參差不齊,有序與無序并存,數據類型繁多;(4)信息共享程度高、使用成本低;(5)內容新穎實效性強。要實現網絡信息的分類管理或是對信息的有效甄別、控制等,傳統的模式識別方法顯然力不從心。20世紀90年代中期,出現了基于核的學習方法,該方法是從統計學習理論中發展出來的較新的學習方法,它有效克服了傳統模式識別方法的局部極小化和不完全統計分析的問題,在處理非線性關系的高維復雜模式識別問題時,有著顯著的優勢。
2基于核方法的模式識別