蔡抒 程先富
摘要:安徽大別山區(qū)是中國(guó)滑坡災(zāi)害發(fā)生較為嚴(yán)重的地區(qū)之一,開(kāi)展滑坡易發(fā)性評(píng)價(jià)研究,可為判斷滑坡易發(fā)分區(qū)的空間分布、產(chǎn)生原因提供科學(xué)依據(jù)。本文采用極限梯度提升算法、K近鄰、邏輯回歸、支持向量機(jī)、Stacking模型融合方法,利用貝葉斯算法優(yōu)化模型,選擇安徽大別山區(qū)1959—2020年的降雨、植被覆蓋、地形地質(zhì)、水文等數(shù)據(jù)作為輸入,結(jié)果如下:(1)XGBoost模型驗(yàn)證集AUC為92.06%,Precision,Accuracy,Recall,F(xiàn)1-score得分較高,泛化能力好,適合做為研究區(qū)預(yù)測(cè)模型。模型得出的極高易發(fā)區(qū)和高易發(fā)區(qū)分別占總面積的23%和16.2%,分布范圍主要在金寨縣、霍山縣、舒城縣南部、潛山縣北部、太湖縣東部。(2)通過(guò)XGBoost模型的特征重要性排序發(fā)現(xiàn),巖性、坡度、8月降雨是最重要的影響因子,曲率、TWI是最不重要的影響因子。
關(guān)鍵詞:滑坡;
機(jī)器學(xué)習(xí);
安徽大別山區(qū)
中圖分類號(hào):P642.22文獻(xiàn)標(biāo)志碼:
A文章編號(hào):1001-2443(2024)02-0152-09
近年來(lái),地質(zhì)災(zāi)害在中國(guó)多地頻繁發(fā)生。其隱蔽性、突發(fā)性和破壞性的特點(diǎn),威脅著受災(zāi)地區(qū)人民的生命財(cái)產(chǎn)安全[1-2]。隨著極端天氣氣候事件發(fā)生的不確定性因素增加,可能導(dǎo)致的強(qiáng)降雨事件增多,加之大規(guī)?;A(chǔ)設(shè)施建設(shè)對(duì)地質(zhì)環(huán)境影響劇烈,我國(guó)的地質(zhì)災(zāi)害治理工作仍面臨嚴(yán)峻挑戰(zhàn)。滑坡在地質(zhì)災(zāi)害中占比較多,滑坡易發(fā)性是指地表或者坡面土層在自然或人為因素的作用下,出現(xiàn)結(jié)構(gòu)破壞、坡面變形等現(xiàn)象的概率,高易發(fā)性地區(qū)更容易產(chǎn)生滑坡。
滑坡易發(fā)性評(píng)價(jià)主要利用地理信息系統(tǒng)(Geographic Information System,GIS)技術(shù)獲得滑坡發(fā)生概率柵格圖,預(yù)測(cè)方法主要可分為啟發(fā)式模型[3]、常規(guī)數(shù)理統(tǒng)計(jì)模型[4]和機(jī)器學(xué)習(xí)模型[5]。信息價(jià)值模型[6]、熵指數(shù)[7]、確定性因子[8]、層次分析法[9]等多種統(tǒng)計(jì)方法也被廣泛應(yīng)用于滑坡易發(fā)性圖譜繪制,但統(tǒng)計(jì)模型通常建立在一定的假設(shè)前提之上,這些假設(shè)可能不符合實(shí)際情況,導(dǎo)致模型的預(yù)測(cè)能力受到限制,某些復(fù)雜的統(tǒng)計(jì)模型可能很難被解釋和理解,這對(duì)于一些需要解釋的場(chǎng)景來(lái)說(shuō)可能會(huì)帶來(lái)困難。相比之下,機(jī)器學(xué)習(xí)模型對(duì)處理的樣本數(shù)據(jù)限制較少,建模過(guò)程相對(duì)簡(jiǎn)單高效[10]。梯度增強(qiáng)機(jī)(Gradient Boosting Machine,GBM)和極端梯度提升算法(Extreme Gradient Boosting,XGBoost)由于其預(yù)測(cè)能力和魯棒性出眾被熱衷。Merghadi等[11]對(duì)阿爾及利亞的案例研究,應(yīng)用不同的機(jī)器學(xué)習(xí)技術(shù)進(jìn)行比較,結(jié)果表明,所有基于樹(shù)的集合(隨機(jī)森林、極限梯度提升樹(shù))在Kappa等指標(biāo)上都優(yōu)于其他機(jī)器學(xué)習(xí)模型(K近鄰、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò))。Cao等[12]選擇了12個(gè)因子,利用隨機(jī)森林、支持向量機(jī)和 XGBoost三種方法生成滑坡分區(qū)圖,發(fā)現(xiàn)XGBoost優(yōu)于其他兩種方法。在影響因子重要性上,Ali等[13]使用邏輯回歸模型和決策樹(shù)開(kāi)展滑坡易發(fā)性評(píng)價(jià)時(shí),發(fā)現(xiàn)臺(tái)灣地區(qū)降雨引發(fā)的滑坡,其最重要的影響因素是與河流的距離。Shrestha等[14]利用最大熵模型,采用刀切法得到每個(gè)因子AUC值,通過(guò)計(jì)算發(fā)現(xiàn)距斷層距離、高程是最重要的影響因子。
安徽大別山地區(qū)地質(zhì)構(gòu)造復(fù)雜,山區(qū)海拔高,降雨加之人為活動(dòng)導(dǎo)致該地區(qū)滑坡災(zāi)害頻繁。一些專家學(xué)者[15]對(duì)安徽大別山區(qū)滑坡的形成機(jī)理進(jìn)行了研究,樓少甫[16]對(duì)大別山區(qū)開(kāi)發(fā)了滑坡地質(zhì)災(zāi)害信息管理系統(tǒng)。本文通過(guò)收集安徽大別山區(qū)已發(fā)生滑坡的相關(guān)資料,利用機(jī)器學(xué)習(xí)模型預(yù)測(cè)滑坡發(fā)生的概率,繪制易發(fā)分區(qū)圖,分析影響因子重要性,為當(dāng)?shù)卣疄?zāi)前預(yù)警提供科學(xué)依據(jù)。
1 研究區(qū)概況及數(shù)據(jù)來(lái)源
1.1 研究區(qū)概況
研究區(qū)包括裕安、金安、葉集、金寨、霍山、霍邱、舒城、潛山、岳西、太湖、宿松八縣三區(qū),地處安徽大別山腹地,共計(jì)2.36萬(wàn)平方公里,如圖1所示。該區(qū)屬于北亞熱帶溫濕季風(fēng)區(qū),氣候溫暖濕潤(rùn),降水充沛。大別山山地地質(zhì)構(gòu)造基礎(chǔ)是古生代華力西中期的秦嶺大別山褶皺帶,主要由前震旦紀(jì)地層和侵入巖構(gòu)成,以花崗巖、片麻巖等為主。大別山為淮河水系和長(zhǎng)江水系的分水嶺,也是我國(guó)南北水系的分水嶺。山北水往北流入淮河,山南水往南流入長(zhǎng)江,山南北兩側(cè)水系豐富,是淮河中游長(zhǎng)江下游的重要水源補(bǔ)給區(qū) 。山地南北兩側(cè)修建了許多水庫(kù),有佛子嶺水庫(kù)、梅山水庫(kù)、響洪甸水庫(kù)、白蓮河水庫(kù)、南灣水庫(kù)等[17]。
1.2 數(shù)據(jù)來(lái)源
在滑坡易發(fā)性評(píng)價(jià)中,建立合適的評(píng)價(jià)體系是準(zhǔn)確預(yù)測(cè)的重要前提。影響因子的選取遵循以下條件:①影響因子和滑坡的形成因素相關(guān)。②控制模型影響因子的數(shù)量,盡可能避免因子間的共線性,減少模型過(guò)擬合風(fēng)險(xiǎn)。③結(jié)合研究區(qū)實(shí)際情況:根據(jù)爬取的滑坡新聞數(shù)據(jù),發(fā)現(xiàn)部分滑坡發(fā)生在6、7、8月強(qiáng)降雨過(guò)程中,因此選擇6、7、8月平均降雨量和年均降雨量作為誘發(fā)因子。從谷歌地圖影像上觀察發(fā)現(xiàn),有部分滑坡發(fā)生在植被茂盛和人類工程活動(dòng)較多的地區(qū),如圖2所示,因此選擇NDVI、距道路距離和距建筑用地距離作為影響因子。
如表1所示,以柵格單元為評(píng)價(jià)單元,將所有數(shù)據(jù)轉(zhuǎn)換為30m柵格數(shù)據(jù),統(tǒng)一為蘭伯特投影。
2 數(shù)據(jù)處理及研究方法
2.1 數(shù)據(jù)處理
(1)本文對(duì)DEM 數(shù)據(jù)重采樣為30 m,提取坡度、坡向、曲率、地形起伏度、地表粗糙度五個(gè)地形因子和地形濕度指數(shù)(topographic wetness index,TWI)、水流強(qiáng)度指數(shù)(stream power index,SPI)2個(gè)水文因子。
(2)由于下載的滑坡點(diǎn)數(shù)據(jù)量較少,不能滿足機(jī)器學(xué)習(xí)模型需要的樣本點(diǎn)數(shù)量,本文采用Python爬蟲(chóng)技術(shù)爬取百度新聞網(wǎng)站上2010—2020年安徽大別山區(qū)滑坡新聞,收集每個(gè)滑坡的地理位置。此外,還搜集了六安市國(guó)土資源局、金寨縣人民政府、霍山縣人民政府網(wǎng)站上歷史滑坡的地理位置或坐標(biāo),利用水經(jīng)微圖4.1軟件,下載相應(yīng)地區(qū)的谷歌地圖歷史影像數(shù)據(jù)。將影像數(shù)據(jù)導(dǎo)入ArcGIS,數(shù)字化滑坡的范圍,面轉(zhuǎn)柵格,再柵格轉(zhuǎn)點(diǎn),結(jié)合中科院歷史滑坡數(shù)據(jù)形成最終滑坡點(diǎn)數(shù)據(jù)集。在地勢(shì)平坦地區(qū),滑坡點(diǎn)周圍50~500 m范圍以及遠(yuǎn)離滑坡點(diǎn)密集的地區(qū)分別選取非滑坡區(qū)域,利用面轉(zhuǎn)柵格、柵格轉(zhuǎn)點(diǎn)工具生成非滑坡點(diǎn),導(dǎo)出為Excel表格,利用rand函數(shù)隨機(jī)選取和滑坡點(diǎn)數(shù)目相同的非滑坡點(diǎn),共計(jì)912個(gè)。
(3)利用Map2Shp桌面版軟件將地質(zhì)圖轉(zhuǎn)為保留屬性的shape格式。應(yīng)用ArcGIS10.2軟件導(dǎo)入圖幅經(jīng)緯度坐標(biāo),利用空間校正工具匹配圖幅經(jīng)緯度。按照地質(zhì)礦產(chǎn)術(shù)語(yǔ)分類代碼第10部分“巖石學(xué)(GB/T 9649.10—2009)”中的巖性代碼修改屬性信息。缺少的部分?jǐn)?shù)據(jù),利用安徽省1∶100萬(wàn)巖性圖投影、數(shù)字化、添加屬性補(bǔ)全,和1∶20萬(wàn)矢量數(shù)據(jù)合并并進(jìn)行拓?fù)錂z查。對(duì)照工程巖體分級(jí)標(biāo)準(zhǔn)(GB/T 50218—2014)中的巖石堅(jiān)硬程度劃分標(biāo)準(zhǔn)分類。地下水?dāng)?shù)據(jù)和巖性數(shù)據(jù)處理方法相同。
(4)NDVI數(shù)據(jù)利用ArcGIS柵格計(jì)算器工具求取21年平均值。
(5)應(yīng)用柵格計(jì)算器提取土地利用數(shù)據(jù)中的建筑用地,對(duì)道路、斷層、河流、建筑數(shù)據(jù)利用歐式距離、裁剪、重分類工具生成多環(huán)緩沖區(qū),分辨率為30 m。參照有關(guān)參考文獻(xiàn)分級(jí)值,將道路、斷層、建筑用地三類因子的多環(huán)緩沖區(qū)值設(shè)置為0~500m、500~1000 m、1000~1500 m、1500~2000 m、大于2000 m總共5個(gè)等級(jí),河流多環(huán)緩沖區(qū)值設(shè)置為0~200 m、200~500 m、500~1000 m、1000~2000 m、大于2000 m總共5個(gè)等級(jí)。
(6)利用Python程序計(jì)算22個(gè)氣象站點(diǎn)1959—2020年6、7、8月平均降雨量和年均降雨量。利用ArcGIS反距離加權(quán)法插值得到降雨量柵格數(shù)據(jù)集,分辨率為30 m。
(7)將分類后的矢量數(shù)據(jù)面轉(zhuǎn)柵格為柵格數(shù)據(jù)。所有柵格數(shù)據(jù)設(shè)置為蘭伯特坐標(biāo)系,并統(tǒng)一為30 m分辨率,連續(xù)型數(shù)據(jù)統(tǒng)一按自然間斷法分為7級(jí)。
(8)利用ArcGIS多值提取至點(diǎn)工具,完成影響因子分級(jí)值與滑坡點(diǎn)、非滑坡點(diǎn)匹配,導(dǎo)出為csv格式,得到模型訓(xùn)練集和驗(yàn)證集。利用ArcGIS Python API編寫(xiě)程序,多值提取至點(diǎn)并導(dǎo)出csv格式,總計(jì)26524738行,再與研究區(qū)點(diǎn)圖層匹配導(dǎo)出柵格文件。
2.2 研究方法
2.2.1 K近鄰 KNN(K-Nearest Neighbors)算法通俗的說(shuō)就是“近朱者赤,近墨者黑”,其主要算法思想為:特征空間中的一個(gè)樣本,如果與其最類似的K個(gè)樣本中的大部分屬于某種類型,則該樣本也屬于該類別[18]。本文使用貝葉斯算法優(yōu)化模型得到最優(yōu)參數(shù)后,利用5折交叉驗(yàn)證對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。
2.2.2 邏輯回歸模型(logistic regression,LR) 邏輯回歸模型是一種形式簡(jiǎn)單的機(jī)器學(xué)習(xí)模型。該模型通過(guò)在線性回歸的基礎(chǔ)上增加一個(gè)sigmoid函數(shù)(非線形)映射,其計(jì)算代價(jià)不高,易于理解和實(shí)現(xiàn)[19]。本文使用貝葉斯算法優(yōu)化模型得到最優(yōu)參數(shù)后,利用5折交叉驗(yàn)證對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。
2.2.3 極限梯度提升算法 極限梯度提升(Extreme Gradient Boosting,XGBoost)模型是梯度提升算法的一種代表算法,由陳天奇等[20]于2014年提出。XGBoost擴(kuò)展和改進(jìn)了梯度提升決策樹(shù)模型。其由多棵決策樹(shù)組成,決策樹(shù)對(duì)樣本特征進(jìn)行映射,使每個(gè)樣本落在該樹(shù)的某個(gè)葉子節(jié)點(diǎn)上,每個(gè)葉子節(jié)點(diǎn)包含權(quán)重得分,多顆決策樹(shù)共同參與,最后將所有樹(shù)的分?jǐn)?shù)累加起來(lái)作為最終的預(yù)測(cè)結(jié)果。本文使用貝葉斯算法優(yōu)化模型得到最優(yōu)參數(shù)后,利用5折交叉驗(yàn)證對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。
2.2.4 Stacking 模型融合 Stacking算法由兩層結(jié)構(gòu)組成,利用原始數(shù)據(jù)構(gòu)建的多個(gè)學(xué)習(xí)器為初級(jí)學(xué)習(xí)器,其輸出結(jié)果構(gòu)建的學(xué)習(xí)器為次級(jí)學(xué)習(xí)器。算法的效果好壞取決于兩個(gè)方面:一個(gè)是基模型的預(yù)測(cè)效果,通?;P偷念A(yù)測(cè)效果越好,集成學(xué)習(xí)模型的預(yù)測(cè)效果越好;
二是基模型之間需要有一定的差異性,以便讓不同的基模型學(xué)習(xí)到不同的特征,使每個(gè)模型充分發(fā)揮其優(yōu)點(diǎn)[21]。本研究將貝葉斯優(yōu)化后的SVC、XGBoost、LR模型作為基學(xué)習(xí)器,LR作為次學(xué)習(xí)器進(jìn)行集成。
3 結(jié)果與分析
3.1 精度評(píng)價(jià)
采用斯皮爾曼相關(guān)系數(shù)進(jìn)行相關(guān)性檢驗(yàn),發(fā)現(xiàn)年均降雨量和6月降雨量相關(guān)系數(shù)為0.94,地形起伏度和坡度、地表粗糙度相關(guān)系數(shù)分別為0.9、0.83,坡度和地表粗糙度相關(guān)系數(shù)為0.91,由于相關(guān)系數(shù)大于0.8為強(qiáng)相關(guān),因此要去除強(qiáng)相關(guān)因子。利用特征工程中遞歸式特征消除(Recursive Feature Elimination, RFE)方法,得到每個(gè)影響因子的重要性排名,結(jié)合文獻(xiàn)引用較多的因子,去除地表粗糙度因子、年均降雨量、地形起伏度3個(gè)因子。再利用斯皮爾曼相關(guān)系數(shù)進(jìn)行檢驗(yàn),沒(méi)有發(fā)現(xiàn)嚴(yán)重共線性因子。影響因子如圖3所示,其中地下水類型的圖例為:1為侵入巖風(fēng)化裂隙水,2為變質(zhì)巖類裂隙水,3為含鈣碎屑巖類溶蝕孔隙裂隙水,4為基巖裂隙水,5為巖漿巖類裂隙水,6為松散巖類孔隙水,7為混合花崗巖裂隙水,8為湖泊,9為火成巖風(fēng)化裂隙水,10為碎屑巖類孔隙裂隙水,11為碳酸鹽巖類裂隙巖溶水,12為裸露型巖溶水。
利用Python將滑坡、非滑坡數(shù)據(jù)合并,選擇數(shù)據(jù)的70%,總共1264個(gè)樣本作為訓(xùn)練集,剩余543個(gè)樣本作為驗(yàn)證集。數(shù)據(jù)集包括8個(gè)類別型變量和8個(gè)連續(xù)型變量,連續(xù)型變量包括NDVI、曲率、SPI、TWI、6月平均降雨量、7月平均降雨量、8月平均降雨量和坡度,利用自然間斷法重分類為7級(jí)。刪除缺失值,得到1807個(gè)樣本數(shù)據(jù),滑坡點(diǎn)數(shù)據(jù)和非滑坡點(diǎn)數(shù)據(jù)比例為50.36%和49.64%,數(shù)據(jù)平衡。
利用貝葉斯方法(BayesSearchCV),采用5折交叉驗(yàn)證對(duì)每個(gè)模型的重要超參數(shù)進(jìn)行優(yōu)化,再應(yīng)用學(xué)習(xí)曲線方法檢驗(yàn)?zāi)P头夯芰?。模型?yōu)化后的超參數(shù)值如表2所示。
XGBoost模型的訓(xùn)練集AUC為91.88%,驗(yàn)證集AUC為92.06%,Precision為82.19%,Accuracy為84.35%,Recall為87.91%,F(xiàn)1-score為84.96%。在訓(xùn)練集和驗(yàn)證集AUC指標(biāo)上,XGBoost模型AUC值最高;
在Precision方面,XGBoost模型排名第二,Stacking模型Precision值最高;
在Accuracy方面,Stacking模型最優(yōu),XGBoost模型次之;
在Recall方面,KNN模型最優(yōu),其次是SVC和Stacking;
在F1-score 評(píng)估方法中,Stacking模型最高,其次是 XGBoost。以驗(yàn)證集AUC指標(biāo)為主要評(píng)估指標(biāo),發(fā)現(xiàn)XGBoost模型在5個(gè)模型中表現(xiàn)最優(yōu),其次是Stacking模型。XGBoost模型采用集成方法,基于貪心算法思想,在建立決策樹(shù)的過(guò)程中找到最佳的分裂點(diǎn),和其他算法相比有一定優(yōu)勢(shì)[22]。ROC曲線如圖4所示。
選取準(zhǔn)確率(Accuracy)、AUC值、精確率(Precision)、召回率(Recall)、F1值這五項(xiàng)分類評(píng)價(jià)指標(biāo)評(píng)估模型的性能,如表3所示。
3.2 易發(fā)性評(píng)價(jià)及影響因子重要性分析
利用訓(xùn)練好的XGBoost模型對(duì)研究區(qū)的測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè),采用自然間斷法將評(píng)價(jià)結(jié)果分為:極高易發(fā)區(qū)(0.742~0.999)、高易發(fā)區(qū)(0.473~0.742)、中易發(fā)區(qū)(0.180~0.473)、低易發(fā)區(qū)(0.001~0.180)4類,如圖6所示,分別占研究區(qū)總面積的23%、16.2%、13.3%、47.5%。極高易發(fā)區(qū),高易發(fā)區(qū)分布范圍主要在金寨縣、霍山縣、舒城縣南部、潛山縣北部、太湖東部和滑坡點(diǎn)密集區(qū)相一致,說(shuō)明本文模型泛化結(jié)果較好。通過(guò)圖6發(fā)現(xiàn):極高易發(fā)區(qū)的坡度較高,植被茂盛,可能是導(dǎo)致滑坡的主要因素。
XGBoost模型的特征重要性排序進(jìn)一步分析,如圖7所示,巖性、坡度、8月降水是排名靠前的變量,說(shuō)明在導(dǎo)致研究區(qū)滑坡發(fā)生的影響因子中,這三個(gè)因子是最重要的。坡度較大可能增大了潛在滑體的下滑力,破壞平衡導(dǎo)致滑坡發(fā)生,在降雨條件下容易斜坡積水,雨水加重了巖土體質(zhì)量并對(duì)巖土體有軟化作用,從而降低了抗剪強(qiáng)度。模型顯示重要性最低的兩個(gè)因子是TWI和曲率。表明這兩個(gè)因子對(duì)研究區(qū)滑坡的作用最小。
4 結(jié)論
本文以安徽大別山區(qū)歷史滑坡點(diǎn)數(shù)據(jù)為基礎(chǔ),利用機(jī)器學(xué)習(xí)模型預(yù)測(cè)滑坡發(fā)生概率,最后進(jìn)行特征重要性排序。得到如下結(jié)論:
(1)當(dāng)樣本點(diǎn)數(shù)量為900個(gè)左右時(shí),可以確保5個(gè)機(jī)器學(xué)習(xí)模型的訓(xùn)練和測(cè)試精度,而且模型泛化能力很好。當(dāng)非滑坡取樣點(diǎn)均勻分布整個(gè)研究區(qū)時(shí),模型預(yù)測(cè)的精度較高。
(2)研究區(qū)極高易發(fā)區(qū),高易發(fā)區(qū)主要分布在金寨縣、霍山縣、舒城縣南部、潛山縣北部、太湖東部。從結(jié)果上發(fā)現(xiàn),極高易發(fā)區(qū)和滑坡點(diǎn)密集區(qū)相一致,易發(fā)分區(qū)結(jié)果較為可信。巖性、坡度、8月降水在導(dǎo)致滑坡發(fā)生的影響因子中是最重要的影響因子。
參考文獻(xiàn)
[1] 周萍, 鄧輝, 張文江, 等. 基于信息量模型和機(jī)器學(xué)習(xí)方法的滑坡易發(fā)性評(píng)價(jià)研究:
以四川理縣為例[J]. 地理科學(xué), 2022, 42(9):
1665-1675.
[2] 解明禮, 巨能攀, 趙建軍, 等. 區(qū)域地質(zhì)災(zāi)害易發(fā)性分級(jí)方法對(duì)比分析研究[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2021, 46(7):
1003-1014.
[3] HUANG F M, CAO Z S, GUO J F, et al. Comparisons of heuristic, general statistical and machine learning models for landslide susceptibility prediction and mapping[J]. Catena, 2020, 191:
1-14.
[4] 薛文洋, 高猛, 朱亞勝. 基于ArcGIS與證據(jù)權(quán)法的崩塌易發(fā)性評(píng)價(jià)[J]. 世界有色金屬, 2019, 529(13):
154-156.
[5] 林榮福, 劉紀(jì)平, 徐勝華, 等. 隨機(jī)森林賦權(quán)信息量的滑坡易發(fā)性評(píng)價(jià)方法[J]. 測(cè)繪科學(xué), 2020, 45(12):
131-138.
[6] WANG Q, WANG Y, NIU R Q, et al. Integration of information theory, K-Means cluster analysis and the logistic regression model for landslide susceptibility mapping in the three gorges area, China[J]. Remote Sensing, 2017, 9(9):
28.
[7] BUI D T , SHAHABI H, SHIRZADI A, et al. Landslide detection and susceptibility mapping by AIRSAR data using support vector machine and index of entropy models in Cameron Highlands, Malaysia[J]. Remote Sensing, 2018, 10(10):
32.
[8] CHEN W, LI W P, CHAI H C, et al. GIS-based landslide susceptibility mapping using analytical hierarchy process (AHP) and certainty factor (CF) models for the Baozhong region of BaojiCity, China[J]. Environmental Earth Sciences, 2016, 75(1):
63.
[9] THI T N N, LIU C C. A new approach using AHP to generate landslide susceptibility maps in the Chen-Yu-Lan Watershed, Taiwan[J]. Sensors, 2019, 19(3):
18.
[10] MERGHADI A, YUNUS A P, DOU J, et al. Machine learning methods for landslide susceptibility studies:
a comparative overview of algorithm performance[J]. Earth-Science Reviews, 2020, 207:
3225.
[11] MERGHADI A, ABDERRAHMANE B, BUI D T, et al. Landslide susceptibility assessment at Mila Basin (Algeria):
a comparative assessment of prediction capability of advanced machine learning methods[J]. ISPRS International Journal of Geo-Information, 2018, 7(7):
30.
[12] CAO J, ZHANG Z, DU J, et al. Multi-geohazards susceptibility mapping based on machine learning-a case study in Jiuzhaigou, China [J]. Natural Hazards, 2020, 102(3):
851-871.
[13] ALI M Z,CHU H J,CHEN Y C, et al. Machine learning in earthquake- and typhoon-triggered landslide susceptibility mapping and critical factor identification[J]. Environmental Earth Sciences, 2021, 80(6):
233.
[14] SHRESTHA S, KANG T S, et al. Assessment of seismically-induced landslide susceptibility after the 2015 Gorkha earthquake, Nepal[J]. Bulletin of Engineering Geology and the Environment, 2019,78(3):
1829-1842.
[15] 楊穎達(dá),崔可銳,崔亮,等.皖大別山區(qū)滑坡的形成機(jī)理研究[J].安徽地質(zhì),2014,24(4):
275-279+307.
[16] 樓少甫.基于GIS的大別山區(qū)滑坡地質(zhì)災(zāi)害信息管理系統(tǒng)研究[D]. 合肥:合肥工業(yè)大學(xué), 2015:
54-63.
[17] 王哲. 大別山區(qū)生態(tài)產(chǎn)業(yè)開(kāi)發(fā)及生態(tài)經(jīng)濟(jì)區(qū)建設(shè)研究[M]. 合肥:合肥工業(yè)大學(xué)出版社, 2017:
26-28.
[18] 何龍. 深入理解XGBoost高效機(jī)器學(xué)習(xí)算法與進(jìn)階[M]. 北京:
機(jī)械工業(yè)出版社, 2020:
45-47.
[19] 張華. 基于邏輯回歸的駕駛員信用評(píng)估研究[J]. 計(jì)算機(jī)時(shí)代, 2023, 369(3):
25-27+35.
[20] CHEN T Q, HE T, BENESTY M, et al. Xgboost:
Extreme gradient boosting. R package version 1.0.0.2[EO/OL]. (2020-04-13) https://CRAN.R-project.org/package=xgboost, 2020-04-13.
[21] 夏曉圣. 中國(guó)PM2.5時(shí)空變化特征及其影響因子研究[D]. 蕪湖:
安徽師范大學(xué), 2020:
13-14.
[22] 黃靜, 鄭慧慧. 基于XGBoost的不平衡員工晉升預(yù)測(cè)[J]. 軟件工程, 2023, 26(3):
25-29.
[23] 王鑫, 廖彬, 李敏, 等. 融合LightGBM與SHAP的糖尿病預(yù)測(cè)及其特征分析方法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2022, 43(9):
1877-1885.
The Comparative Analysis of Landslide Susceptibility Assessment of Dabie Mountain Area, Anhui Province Based on Different Models
CAI Shu, CHENG Xian-fu
(School of Geography and Tourism,Anhui Normal University,Wuhu 241000,China)
Abstract:Dabie Mountain area in Anhui Province is one of the areas in China with serious landslide disasters. Conducting a susceptibility assessment of landslides provides a scientific basis for determining the spatial distribution and causes of landslide-prone areas. In this study, extreme gradient boosting algorithm, K-nearest neighbor, logistic regression, support vector machine, and Stacking model fusion method were used, and Bayesian algorithm was used to optimize the model. The rainfall, vegetation cover, topography, geology, hydrology and other data in Dabie Mountain area from 1959 to 2020 were selected as inputs. The results are as follows:
(1) The AUC of the XGBoost model on the validation set is 92.06%, and the Precision, Accuracy, Recall, and F1-score are high, indicating good generalization ability and suitability as a prediction model for the research area. The extremely high and high susceptibility areas determined by the model account for 23% and 16.2% of the total area, respectively, mainly distributed in Jinzhai County, Huoshan County, the southern part of Shucheng County, the northern part of Qianshan County, and the eastern part of Taihu County.
(2) The feature importance ranking of the XGBoost model shows that lithology, slope, and rainfall in August are the most important influencing factors, while curvature and TWI are the least important influencing factors.
Key words:landslide;
machine learning;
Dabie Mountain area in Anhui Province
(責(zé)任編輯:鞏 劼)
猜你喜歡 機(jī)器學(xué)習(xí)滑坡 水庫(kù)滑坡地下水動(dòng)態(tài)響應(yīng)規(guī)律及浸潤(rùn)線計(jì)算模型——以石榴樹(shù)包滑坡為例水文地質(zhì)工程地質(zhì)(2022年2期)2022-04-13滑坡推力隱式解與顯式解對(duì)比分析——以河北某膨脹土滑坡為例河北地質(zhì)(2021年1期)2021-07-21淺談公路滑坡治理北方交通(2016年12期)2017-01-15基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析電子技術(shù)與軟件工程(2016年22期)2016-12-26基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析時(shí)代金融(2016年27期)2016-11-25前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究科教導(dǎo)刊(2016年26期)2016-11-15基于支持向量機(jī)的金融數(shù)據(jù)分析研究科學(xué)與財(cái)富(2016年28期)2016-10-14機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用科教導(dǎo)刊·電子版(2016年10期)2016-06-02基于Fluent的滑坡入水過(guò)程數(shù)值模擬水利科技與經(jīng)濟(jì)(2016年6期)2016-04-22“監(jiān)管滑坡”比“渣土山”滑坡更可怕山東青年(2016年3期)2016-02-28