首頁 新聞中心 技術博客

高分辨率影像深度學習概率決策融合建筑提取

發布時間:2021-09-21 23:22:55   瀏覽量:3953   作者:測繪學術資訊

摘要:
    為了充分融合不同深度學習模型在建筑提取中的互補信息,該文提出一種基于深度學習概率決策融合的高分辨率影像建筑物提取方法,將不同深度學習模型的類別分割概率進行融合作為最終建筑提取的依據,以實現不同模型之間的優勢互補,最后采用形態學后處理方法進一步優化建筑提取結果。采用3組不同分辨率,具有多種地物形態的建筑數據集驗證本文方法的有效性。實驗表明該文提出的概率決策融合方法取得了滿意的精度(F指數分別為92.45%,90.56%,79.95%),優于單一模型的結果,并且顯著提升了建筑提取結果的可靠性。
引言
    建筑是城市最主要的地物類型之一,建筑信息的準確提取對城市規劃管理、人口密度估計和自然災害評估等方面具有重要意義[1]。高分辨率影像具有豐富的地物細節信息,能夠區分建筑、道路等城市基本地物,為大范圍的建筑物提取提供了可能性。過去幾十年,高分辨率影像建筑信息提取一直是遙感和計算機視覺領域的熱點研究問題,吸引著眾多學者的關注[2]。
    當前,建筑提取的方法主要包括自動提取方法,傳統的監督分類方法和深度學習方法。建筑的自動提取主要采用基于知識和規則的方法,根據建筑物的光譜、紋理、形狀、空間關系等基本特征,構建建筑提取的規則[3]。比如建筑與附近的地物之間會形成較高的局部對比度,建筑和陰影存在空間共生關系。基于這些規則,一些學者構建了自動化的建筑指數,如形態學建筑指數(morphological building index, MBI)和建筑區域指數PanTex[2, 4]。監督分類方法依賴于一定人力的樣本標記和搜集,由于可以從訓練樣本中獲得先驗知識,監督分類方法能夠更好地應對復雜場景下的建筑提取。傳統的監督分類方法多采用多特征融合的機器學習方法,其關鍵也是在于設計有效的特征來描述建筑的屬性。除了光譜特征之外,空間特征常常被用來彌補高分辨率影像上光譜特征對建筑屬性描述的不足。常用的空間特征包括形態學差分譜[5]、灰度共生矩陣[6](gray-level co-occurance matrix, GLCM)等。然而,以上方法主要采用人工設計特征,依賴于專家知識。而且,由于建筑自身和環境的復雜性,人為設計的底層特征在描述建筑屬性時,依然存在巨大挑戰。
    近些年來,基于卷積神經網絡(convolutional neural network, CNN)的深度學習方法已經越來越多地應用于計算機視覺和圖像處理領域,并且取得了巨大的成功。相對于傳統的特征工程方法,深度學習是一種數據驅動的模型,它擁有強大的特征學習和表征能力,能夠從標記數據中自動學得中高層的抽象特征[7]。建筑提取在計算機視覺領域可以看成是一個語義分割問題,即對影像上的建筑物與非建筑物進行像素級的類別標記區分。目前,眾多典型的CNN模型,如全卷積神經網絡(fully convolutional network,FCN)[8]、 Segnet [9]、U-net [10]、 Deeplab系列[11]等,已經成功應用于影像的語義分割任務。其中,基于深度學習的高分辨率影像建筑提取研究,也取得了一定進展。比如:文獻[12]采用兩步法CNN模型從高分辨率影像上提取鄉村的建筑。該方法第一階段在粗尺度上進行村莊的定位與提取,隨后在村莊區域進行精細尺度的單個建筑提取。該方法能夠減少影像背景的復雜性,提升鄉村建筑的提取效率。文獻[13]提出一種基于深度殘差網絡的模型用于建筑探測,同時采用面向對象的濾波方法進一步優化建筑提取結果。文獻[14]采用Deeplab-v3+模型對遙感影像進行了建筑的分割。
    CNN模型眾多,不同模型的構建方式也不盡相同,針對高分辨率影像上建筑提取這個特定任務,不同的CNN模型可能表現出不同的優勢,融合不同深度模型的結果有望進一步優化。因此,本文提出一種基于深度學習概率決策融合的建筑提取方法,在決策層融合不同模型的類別分割概率作為最終類別標記的依據,以期不同的CNN模型能夠優勢互補,提升建筑提取的精度與置信度,最后根據建筑幾何屬性,采用后處理操作,進一步優化建筑提取結果。
建筑提取方法

    圖1展示了本文的方法框架。首先,采用不同的卷積神經網絡(本文選取Segnet和Deeplab v3+兩個典型網絡)對影像進行語義分割,生成類別概率圖;然后,在決策層融合不同網絡模型的類別概率來實現不同模型的優勢互補,提升建筑提取的精度與可靠性;最后,根據建筑物的幾何信息,采用必要的后處理操作對建筑提取結果進一步優化得到比較純凈的建筑信息。

卷積神經網絡模型
    文獻[15]在2015年提出FCN,實現了基于端到端的CNN圖像語義分割。FCN使用卷積層替換CNN中的全連接層,可以接受任意尺寸的輸入圖像。為了使影像的輸出與輸入大小相同,FCN將特征圖上采樣到與輸入圖像相同的尺寸,同時融合淺層網絡學習到的特征,得到更好的分割結果。在FCN的引領下,基于CNN的語義分割方法開始蓬勃發展,出現了Segnet、 U-net、 Deeplab系列等。這些網絡實現方式不同,在具體的語義分割任務中,可能有各自的優勢。因此,對它們的結果進行融合,有望實現優勢互補,進一步優化分割結果。本文將以典型的語義分割網絡Segnet和Deeplab v3+為例,探索概率決策融合對高分辨率影像建筑識別的有效性。下面簡要介紹Segnet和Deeplab v3+的基本原理。
Segnet

    Segnet是一個經典的語義分割網絡模型,該模型使用了“編碼-解碼”的對稱結構[8](圖2)。其中,編碼器是指網絡的特征提取部分,使用卷積層和池化層逐漸縮小圖像的尺寸,編碼器網絡結構可采用去除全連接層的VGG-16網絡[16]。解碼器是指將特征圖轉化為預測圖的部分,使用了一系列的上采樣和卷積操作,其結構的關鍵之處在于解碼階段用到了編碼器在池化時的索引值,從而能以原有的信息進行上采樣,恢復目標的邊緣位置,得到更加準確的分割結果。


Deeplab v3+

    Deeplab v3+是Deeplab系列模型的最新版本,自從文獻[17]采用空洞卷積算法,提出deeplab v1以來,作者不斷推陳出新,探索ResNet[18]和Xception[19]等模型作為不同的特征提取器,引入帶孔的空間金字塔模塊(atrous spatial pyramid pooling, ASPP)和編碼-解碼結構[20],對原有模型進行進一步的改進。ASPP包含不同尺度的帶孔卷積核對圖像進行處理,能夠挖掘圖像的多尺度和上下文內容信息,提取影像的高層特征。為了防止目標邊界信息因為池化和卷積操作而丟失,引入的編碼-解碼器結構可以通過逐步恢復空間信息來獲得更清晰的目標邊界。綜上,Deeplab v3+通過采用ASPP模塊和編碼-解碼結構,處理多尺度的圖像上下文信息,優化分割結果,提高目標的分割精度。
2
概率決策融合與置信度

    語義分割模型眾多,不同的模型實現方式和技巧有著較大的區別,針對一個具體的語義分割任務,不同的網絡模型可能擁有各自的優勢。因此,本文認為將不同模型進行融合有望實現模型之間的優勢互補,從而進一步提升模型的影像分割精度。具體地,本文認為Segnet和Deeplab v3+模型在高分辨率影像建筑識別的任務中,能夠提取到互補的信息??紤]到深度學習在預測時不僅能夠直接輸出類別標簽,也能夠得到每個像素屬于每個類別的概率信息,因此,本文將不同語義分割模型獨立輸出的類別概率進行決策層的概率融合,根據融合概率確定最終的類別標記結果,以提升建筑提取的精度。概率融合公式表示如下:


    需要說明的是,概率決策融合方法可以看成是一種框架,它可以融合不同的語義分割模型,本文只是以Segnet和Deeplab v3+為例,探究模型融合的有效性。

    為進一步探究概率融合的效果,本文從分類置信度角度繼續分析。對于二類分割任務,分類概率可以直接衡量某個類別的分割置信度,分類概率值越大,表明該像素分類置信度越高。本文統計不同CNN模型以及融合模型中高置信度分類結果的比例,探究概率融合對分類置信度的影響。具體地,本文設置9為高置信度分割結果。

建筑信息后處理
    初始的建筑提取結果一般會包含細小的噪聲、對象孔洞等,影響了建筑提取的精度。根據建筑屬性認知,本文采用面積約束和建筑孔洞填充進一步對初始建筑提取結果進行后處理優化。具體地,若某一探測的建筑對象的面積小于給定閾值c,則該對象被標記為背景;若建筑孔洞局部半徑小于給定閾值r,則對該孔洞進行形態學重構運算進行填充并且保持該建筑對象的邊緣[21]。面積約束能夠減少建筑提取的錯檢誤差,建筑孔洞填充能夠減少建筑提取的遺漏誤差,從而整體上提高建筑檢測的精度??紤]到建筑物的幾何屬性,本實驗中,最小建筑的面積閾值c設為5 m2,建筑孔洞局部半徑閾值r設為2 m,對應形態學運算的圓形結構元素半徑大小。

精度評價

    本文采用準確率(P)、召回率(R)和F指數(F)3個常用的指標來衡量建筑提取的精度。其中,準確率可以衡量建筑提取的正確率,召回率反映建筑提取的完備率,F指數是同時考慮建筑提取準確性與完備性的綜合指標。3個指標的定義公式如下:


    式中:TP表示正類預測為正類,即正確檢測的建筑,FP表示將負類預測為正類,即錯誤檢測的建筑,對應錯分誤差;FN表示正類預測為負類,即遺漏的建筑,對應漏分誤差;表示像素個數。

實驗與分析

實驗數據與實驗設置
    本文采用了3種不同分辨率的建筑數據集進行實驗(圖3),分別是國際攝影測量與遙感協會(International Society for Photogrammetry and RemoteSensing, ISPRS)的Vaihingen建筑數據集,分辨率0.09 m(http://www2.isprs.org/commissions/comm3/wg4/2d-sem-label-vaihingen.html),武漢大學季順平團隊生產的建筑數據集(WHU Building),分辨率0.3 m(http://study.rsgis.whu.edu.cn/pages/download/),馬薩諸塞州建筑數據集(Massachusetts Building),分辨率1 m(https://www.cs.toronto.edu/~vmnih/data/)。ISPRS Vaihingen數據集包含近紅外和紅綠共3個波段,一共有33個不同大小的影像區域(尺寸大約在2 500像素×2 500像素左右),其中16個區域為訓練影像,其它17個區域為測試影像。WHU Building數據集包含4 736個訓練樣本塊,1 036個驗證樣本塊,2 416個測試樣本塊,大小都為512像素×512像素。MassachusettsBuilding數據集包含103個訓練影像,4個驗證影像,10個測試影像,影像大小都為1 500像素×1 500像素。
    考慮到電腦內存,在訓練階段,本文將ISPRS Vaihingen的訓練集裁剪為500像素×500像素的規則影像塊,裁剪步長為100像素,隨機選擇其中80%的圖像塊作為訓練數據,其余作為驗證數據。
    Massachusetts Building的數據集和驗證集也被裁剪成500×500像素的規則影像塊,裁剪步長為200像素。在模型預測階段,內存消耗相對較少,并且語義分割網絡可以接受任意尺寸的圖像輸入,ISPRS Vaihingen和Massachusetts Building數據集的原始測試影像均可直接輸入到訓練好的模型中進行預測。表 1和圖3展示了具體的數據集信息。

    在訓練過程中,對訓練樣本進行了數據增強處理,如平移、翻轉等操作。Segnet和Deeplab v3+分別采用預訓練的VGG-16 [16]和ResNet-18 [18]作為網絡骨架,采用動量梯度隨機下降法(stochastic gradient descent with momentum, SGDM)進行訓練,本文在實驗過程中對CNN的訓練參數進行了調試優化,同時也參考現有文獻中的參數設置,動量參數設為0.9,初始學習率為0.001,batch size大小為4,訓練輪數為100,在訓練過程中,每500次迭代做一次精度驗證。從網絡的中間訓練過程(圖4)以及最終的測試結果來看,這些CNN模型的網絡配置是較優合理的。

建筑提取結果與精度分析
    表2展示了建筑提取的精度,可以看到Segnet和Deeplab v3+模型在ISPRS Vaihingen和WHU Building數據集上表現較好,F指數達到了90%左右,在Massachusetts Building數據集上精度相對較低,F指數約為80%。對于ISPRS Vaihingen和WHU Building數據集,影像分辨率非常高,建筑物與其它地物區分比較明顯,建筑的邊緣比較清晰,而Massachusetts Building數據集,分辨率相對較低,建筑目標比較模糊,和周圍地物容易混淆,可能影響建筑提取精度。此外,本文注意到兩種CNN模型在P和R 2個指標上互有優勢,因此,融合兩種模型有望實現優勢互補??梢钥吹剑疚奶岢龅母怕蕸Q策融合方法在F指數上取得了優于單一模型的結果,3個數據集上的精度分別達到了92.28%、90.13%和79.95%。這說明本文提出的概率決策融合模型用于高分辨率影像建筑提取的有效性。在此基礎上進行形態學后處理(去噪聲、補孔洞)操作,也能夠進一步提升建筑提取精度,F指數分別達到了92.45%、90.56%和79.95%。但本文也注意到Massachusetts Building數據集的后處理精度幾乎沒有變化,這可能是因為在較低分辨率影像上,地物的細節和異質性相對較少,建筑初提取結果中的虛警噪聲和建筑內部的孔洞現象較少。這種情況下,采用的形態學后處理方法對該數據影響有限。
    圖5展示了建筑提取結果及其精度圖,可以看到大部分建筑對象都得到了正確的識別。在ISPRS Vaihingen和Massachusetts Building數據集的標識區域內,Segnet和Deeplab v3+模型在不同地方產生了虛警,但是兩者融合后,虛警都被減弱了,并且后處理進一步濾除了細小的噪聲,提升了建筑提取的準確率。此外,在WHU Building數據集的標識區域內,Segnet和Deeplab v3+模型分別表現出一些錯檢和遺漏誤差,概率決策融合后,2種誤差都得到了緩解,經過后處理,建筑對象內部的小孔洞也被填充,提升了建筑提取的完備率。

    綜上,本文提出的概率決策融合方法在不同分辨率的數據集上都取得了比單一模型較優的結果。此外,形態學后處理操作能夠進一步優化建筑提取結果??紤]到建筑的實際大小和建筑在影像上的可區分能力,并結合本文的實驗結果,認為當影像分辨率優于1 m時,比較有利于建筑物的準確提取。


置信度分析
    為分析概率決策融合的模型對類別分割置信度的影響,本文統計了每個數據集的所有測試圖像在不同模型下的高置信度(分類概率大于0.9)分類像素的比例,并繪制箱型圖如圖6所示??梢钥闯鰜?,概率決策融合模型顯著提升了分割結果中高置信度像素的比例。比如,在ISPRS Vaihingen數據集中,高置信度像素比例分布的中值由96.6%(Segnet)和97.0%(Deeplab v3+)提升到98.3%(融合模型)。

    圖7展示了不同模型輸出的分類置信度圖,可以看出來,高置信度的像素主要分布于建筑與背景類別的內部,而置信度較低的像素主要集中在類別間的邊界區域,邊界區域由于混合了建筑與背景類別的特征,因此分類的可靠性較低。但是,從整體的置信度圖目視效果來看,融合模型輸出的結果顯著提升了類別分割可靠性。


4

典型場景分析

    本文采用的數據集測試圖像眾多,圖像中地物類型豐富,包括植被、水體、停車場,施工裸地等,有些復雜的場景給建筑提取帶來巨大挑戰。本文繼續分析了本文算法在一些復雜場景下的建筑提取表現。圖8(a)展示了ISPRS Vaihingen數據集中的一塊測試區域,該區域植被分布較多。本文注意到部分屋頂上也有植被覆蓋,這樣的建筑很難被檢測出來。此外,相鄰建筑之間的陰影遮蓋也容易造成建筑信息的遺漏。圖8(b)展示了WHU Building數據集中的一塊施工裸地區域,其中有一些建設區域與建筑特征非常相似,該區域容易造成虛警。圖8(c)展示了Massachusetts Building數據集中的一塊測試區域,該數據分辨率相對較低,相鄰的建筑物之間界限不明顯,在檢測結果中容易粘連在一起。但也注意到該區域的背景地物如水體與停車場等,本文算法能夠將其與建筑較好地區分開來。綜上,本文的建筑提取結果在一些復雜場景下也存在一定的錯檢和遺漏誤差,但整體上的表現是合理的。


結束語

    高分辨率影像建筑信息提取是遙感領域的研究熱點和難點,對城市規劃、環境評價具有重要作用。本文提出了一種基于深度學習概率決策融合的高分辨率影像建筑提取方法。該方法在決策層融合不同深度學習模型獨立輸出的分割概率,實現模型之間的優勢互補,并采用形態學后處理操作進一步優化建筑提取結果。實驗表明本文提出的方法在多種數據集上取得了滿意的精度,優于單一模型的分割結果。而且,概率融合顯著提升了類別分割結果的可靠性,降低了分類不確定度。
END
    引用格式:王珍,張濤,丁樂樂,史芙蓉.高分辨率影像深度學習概率決策融合建筑提取[J].測繪科學,2021,46(6):93-101.
    作者簡介:王珍,男,內蒙古察右后旗人,正高級工程師,碩士,主要研究方向為工程測量、遙感圖像處理與應用
18黄无遮挡免费视频