張繼賢1, 顧海燕2,倪歡3, 李海濤2, 楊懿2, 丁少鵬4, 隋淞蔓4
1.
2.
3.
4.
摘要:多模態(tài)遙感對地觀測和深度學習技術的快速發(fā)展,拓展了遙感變化檢測的數(shù)據(jù)維度和方法維度,為更加自動化、精細化和智能化的變化檢測奠定了基礎。本文聚焦深度學習的變化檢測,面向變化特征表達和網(wǎng)絡學習策略兩個基本科學問題,詳細梳理了變化檢測研究的演變過程。變化特征表達層面,呈現(xiàn)4個方面的研究趨勢,即局部、全局到時空聯(lián)合特征表達,單一模態(tài)到多模態(tài)特征表達,輕量級模型到大模型特征表達,以及二值到多類別語義特征表達;網(wǎng)絡學習層面,呈現(xiàn)全監(jiān)督、弱/半監(jiān)督到無監(jiān)督變化檢測的發(fā)展趨勢。在此基礎上,探討了當前基于深度學習的變化檢測所面臨的挑戰(zhàn),并結合當前人工智能技術的發(fā)展趨勢,指出了圖文融合、生成式、人機協(xié)同模式3個發(fā)展方向,以期為理論方法及應用研究提供方向及思路,助力提升遙感變化檢測的智能化能力與應用水平。
關鍵詞:
基金項目
2025年度浙江省尖兵科技計劃項目(2025C01073)
作者簡介
張繼賢(1965—),男,博士,研究員,研究方向為攝影測量與遙感、地理信息系統(tǒng)、資源與環(huán)境遙感監(jiān)測。E-mail:
本文引用格式
張繼賢, 顧海燕, 倪歡, 等.
ZHANG Jixian, GU Haiyan, NI Huan, et al.
閱讀全文
http://xb.chinasmp.com/article/2025/1001-1595/1001-1595-2025-08-1347.shtml
遙感變化檢測技術基于同一區(qū)域、不同時相遙感數(shù)據(jù),發(fā)現(xiàn)地球表面隨時間推移而發(fā)生的變化[1-2]。理論上,該技術可以基于多時相遙感影像,獲取如變化時間、變化位置、變化范圍、變化種類、變化程度和變化狀態(tài)等信息[3],已經(jīng)廣泛應用于自然資源與國土空間治理、防災減災、空間規(guī)劃、環(huán)境監(jiān)測等諸多領域[4]。應用范圍的不斷推廣,對變化檢測方法的時效性、泛化能力提出了新要求。
隨著多模態(tài)遙感對地觀測、人工智能等技術的迅速發(fā)展,遙感變化檢測方法已從單一數(shù)據(jù)模態(tài)的變化發(fā)現(xiàn)向多模態(tài)融合或跨模態(tài)變化發(fā)現(xiàn)方向發(fā)展[5],所依賴的技術手段亦從圖像代數(shù)、變換或傳統(tǒng)機器學習模型向深度學習轉變[6]。如圖1所示,2010年1月1日至2024年4月30日,國際刊物和國內(nèi)刊物收錄的遙感變化檢測論文數(shù)量呈逐年攀升趨勢,同時,基于深度學習的遙感變化檢測論文占比呈現(xiàn)相同態(tài)勢[7]。基于深度學習的遙感變化檢測論文數(shù)量占比超過50%,在國內(nèi)刊物所收錄的論文中,這一比例已突破80%,強調(diào)模型的跨模態(tài)理解以及時空特征融合能力,以適應復雜業(yè)務環(huán)境并擴大變化檢測的應用范圍。而國外研究往往更加注重多模態(tài)特征表達等理論基礎的創(chuàng)新,并未專注于變化檢測這一特定的應用方向,因此,國內(nèi)學者在國際期刊發(fā)表的相關主題論文明顯多于國外學者,如圖2所示。
圖1 遙感變化檢測論文收錄情況(2010年1月1日至2024年4月30日)
Fig. 1 Publication records of remote sensing change detection papers (January 1, 2010 to April 30, 2024)
圖2 國內(nèi)外學者發(fā)表相關主題論文情況(2016年1月1日至2024年4月30日)
Fig. 2 Papers published by domestic and foreign scholars on related topics (January 1, 2016 to April 30, 2024)
近年來,一些文獻從不同角度對現(xiàn)有變化檢測方法進行了總結。文獻[2]從幾何和語義兩個角度對變化檢測方法進行了分析和歸納總結;文獻[3]從無監(jiān)督、監(jiān)督、弱監(jiān)督3個方面探討了遙感變化檢測從傳統(tǒng)到前沿技術的轉型特點與趨勢。但是,文獻[2—3]并未聚焦深度學習驅(qū)動的變化檢測技術。文獻[7]的論述更加聚焦,系統(tǒng)總結了基于像素、基于對象和基于場景的變化檢測深度學習方法。但是,近年來隨著多模態(tài)遙感技術、大模型和生成式人工智能的快速崛起,現(xiàn)有綜述論文已難以涵蓋當前基于深度學習的變化檢測方法的研究現(xiàn)狀和發(fā)展趨勢。
本文在分析總結深度學習驅(qū)動的遙感變化檢測技術的基礎上,分析技術的演變過程和發(fā)展趨勢。顧及基于深度學習的變化檢測技術的兩個核心問題,即變化特征表達和網(wǎng)絡學習方式,本文從兩個維度分析技術的演變過程,如圖3所示。進而,基于當前深度學習技術的進展,論述遙感變化檢測所面臨的挑戰(zhàn)和未來發(fā)展方向。
圖3 研究進展
Fig. 3 Research progress
1 遙感影像變化特征深度學習表達的演變
得益于深度學習網(wǎng)絡結構的靈活性,多模態(tài)對地觀測技術的不斷發(fā)展,人工智能大模型的提出和開放化,以及多任務學習思想的發(fā)展,遙感影像變化特征深度學習表達呈現(xiàn)了4個方面的研究進展(圖4),即局部、全局到時空聯(lián)合特征表達,單一模態(tài)到多模態(tài)特征表達,輕量級模型到大模型特征表達,以及二值到多類別語義變化特征表達。
圖4 變化特征表達
Fig. 4 Change feature representation
1.1 局部、全局到時空聯(lián)合特征表達
以卷積神經(jīng)網(wǎng)絡為代表的局部編碼結構在變化檢測領域表現(xiàn)突出,尤其是在捕捉建筑物、道路、植被等局部區(qū)域變化方面取得顯著成效。但由于局部信息無法完全反映整體的變化趨勢,在處理類別不均衡等復雜場景時,卷積神經(jīng)網(wǎng)絡在全局特征表達上存在一定劣勢。隨著研究的深入,編碼結構開始向全局特征轉變,通過提取和分析整體圖像的全局特征來理解圖像的變化情況。然而,現(xiàn)有變化檢測方法往往側重于單時相圖像內(nèi)部的特征提取,忽略了多時序圖像之間的時間差異和相互關系,這與變化檢測的基本目標不相符。通過綜合考慮不同時間點和空間位置的圖像數(shù)據(jù),可以更全面、更準確地把握變化的發(fā)展趨勢和空間分布,這種時空聯(lián)合分析不僅可以輔助理解變化的發(fā)生和演變過程,還能夠有效預測未來變化的趨勢,在環(huán)境監(jiān)測、城市規(guī)劃、災害管理等領域發(fā)揮了重要作用。因此,時空聯(lián)合分析不僅是變化檢測研究的發(fā)展方向,也是應對復雜變化場景和提高變化檢測精度的關鍵所在,但模型復雜度較高,空間和時間的耦合建模仍是一個難題,難以處理時間依賴和空間上下文的多層次交互,對時間序列中短期波動(如季節(jié)性變化)和長期趨勢(如環(huán)境變化)的檢測不夠準確,訓練和解釋性方面存在挑戰(zhàn)(表1)。
表1 局部、全局到時空聯(lián)合特征表達研究現(xiàn)狀概況
Tab. 1
1.1.1 局部-全局聯(lián)合變化檢測
局部特征的變化檢測方法主要基于CNN、VGG、ResNet等卷積神經(jīng)網(wǎng)絡。將卷積神經(jīng)網(wǎng)絡局部細節(jié)特征和全局關系特征有效融合,能夠有效增強特征表達能力。全局特征提取可分為基于注意力機制的方法和基于圖卷積神經(jīng)網(wǎng)絡的方法兩大類。基于注意力機制的方法[45],通過計算像素上下文依賴關系,顧及變化特征的全局表達,聯(lián)合局部特征能夠更加精準地識別變化信息。Transformer是目前應用較廣泛的注意力方法,能夠?qū)崿F(xiàn)局部、全局和跨尺度特征的提取和融合,深入挖掘多層特征之間的相關性并有效整合了多層次特征[46]。Transformer關注的是空間層面的變化,通過計算兩幅圖像之間的全局差異,自注意力機制對兩幅圖像的所有像素進行配對比對,找出空間上發(fā)生變化的區(qū)域,與圖卷積相比具備更強的上下文特征捕捉能力,可以有效整合多光譜、多時相數(shù)據(jù)的深層語義信息[47]。Transformer對復雜變化模式(如漸進性植被退化、非規(guī)則邊界變化)具有強識別特性,因此在大范圍場景監(jiān)測(如森林砍伐動態(tài)追蹤、農(nóng)田擴張分析)及多源異構數(shù)據(jù)協(xié)同解譯等場景中表現(xiàn)突出[48]。圖卷積神經(jīng)網(wǎng)絡(GCNs)方法具有強大的內(nèi)部關系學習能力[15-18],能交互獲取上下文空間感知信息,能有效捕獲并強調(diào)變化區(qū)域,從而提高變化檢測的準確性和靈敏度。與基于注意力機制的方法相比,圖卷積網(wǎng)絡通過顯式建模空間拓撲關聯(lián),更擅長解析結構化局部特征,其基于圖節(jié)點的空間關系推理機制,可精準刻畫建筑物輪廓演變、道路網(wǎng)絡連通性變化等具有強空間依賴性的目標,對小尺度目標(如地表細微破損、小型建筑物)具有更高的檢測靈敏度,此類特性使其在城市建成區(qū)更新監(jiān)測、基礎設施精細化管理等場景中更具優(yōu)勢。此外,基于局部-全局金字塔結構[49-51]的方法進行局部和全局特征聚合,一定程度上整合了“局部-全局”特征表達,但單一金字塔結構的特征表達完整程度,難以匹敵以Transformer為代表的注意力機制。
1.1.2 時空聯(lián)合變化檢測
由于地物復雜多樣、多時相影像受輻射差異等外界環(huán)境影響,僅使用空間特征進行變化檢測無法充分利用時序影像的時間、空間和光譜等多層次信息,存在模型適應性不強、多場景動態(tài)適配困難等問題。時空聯(lián)合的變化檢測能從衛(wèi)星圖像時間序列中提取時空信息,檢測圖像序列變化的時間和位置,提升變化檢測精度。主要分為長短期記憶網(wǎng)絡(LSTM)方法和注意力機制方法。基于LSTM的方法通過分析多時相圖像之間的時間依賴性增強特征的判別力[37],充分利用空間、光譜特征和時間特征進行變化檢測[43]。注意力機制方法能夠挖掘不同時相間的域間差異,充分利用時間和空間特征建立影像間依賴關系,精細地學習并融合不同尺度下的變化特征,緩解域偏移帶來的變化誤檢現(xiàn)象,提高了變化檢測的準確性和細節(jié)表現(xiàn)能力[44]。Transformer的自注意力機制可用于同時建模時間和空間維度的依賴關系,關注時間序列中的動態(tài)演變。通過引入時間維度,模型可以識別圖像中的長期變化趨勢和短期波動,同時保持空間位置之間的全局依賴關系。但是,此類方法的數(shù)據(jù)依賴度和模型計算復雜度均較高,進而限制了網(wǎng)絡的應用范圍。
時序變化檢測方法展現(xiàn)出多時間尺度的適應性特征,在短期尺度(天/周級)應用中,其高頻觀測能力可實現(xiàn)對洪澇、山體滑坡等突發(fā)性災害的實時動態(tài)監(jiān)測,滿足高時效性響應需求;針對中期尺度(月/季度級)場景,該方法通過解析植被指數(shù)周期性波動與地表覆蓋漸變規(guī)律,有效支撐農(nóng)作物輪作周期識別及城市邊界漸進式擴張追蹤;面向長期尺度(年/十年級)研究,依托時序連續(xù)性特征提取,揭示了生態(tài)系統(tǒng)演替過程與大型地貌的緩慢演變機制。但該類方法數(shù)據(jù)獲取難度大、成本高,需要收集多個時間點的影像數(shù)據(jù)來構建時間序列數(shù)據(jù)集,對數(shù)據(jù)質(zhì)量和一致性要求更嚴格,對樣本標注要求更高,模型結構設計復雜,往往需要設計時間序列特征提取模塊、時間注意力機制,用來學習不同時間階段數(shù)據(jù)之間的復雜關系、變化規(guī)律及長短期依賴關系等。
1.2 單一模態(tài)到多模態(tài)特征表達
相比于單一模態(tài)語義分割、目標檢測任務,多模態(tài)遙感變化檢測概念更加復雜,含義更加豐富。一方面,部分多模態(tài)變化檢測研究面向變化前后遙感圖像模態(tài)差異問題。如,在地震、山體滑坡等需要緊急響應情況下,由于成像條件或衛(wèi)星重訪周期限制,難以保證特定模態(tài)數(shù)據(jù)的快速獲取,這限制了單一模態(tài)變化檢測技術的應用[52]。此時,變化后遙感圖像往往通過最便捷的方式獲取,即圖像模態(tài)存在不確定性,形成了變化前后遙感圖像之間的模態(tài)差異。另一方面,單一模態(tài)并未充分利用來源于多種平臺、傳感器的多模態(tài)遙感數(shù)據(jù),未能發(fā)揮多模態(tài)協(xié)同表達優(yōu)勢,變化檢測精度仍有較大提升空間[1]。因此,多模態(tài)變化檢測研究能夠協(xié)同不同模態(tài)數(shù)據(jù)的聯(lián)合特征表達優(yōu)勢,更好地發(fā)現(xiàn)變化(表2)。為表述清晰起見,本文將單一模態(tài)稱為“跨模態(tài)”變化檢測,將多模態(tài)稱為“多模態(tài)融合”變化檢測。
表2 單模態(tài)到多模態(tài)特征表達研究現(xiàn)狀
Tab. 2
1.2.1 跨模態(tài)變化檢測
跨模態(tài)變化檢測旨在從不同模態(tài)的前后遙感圖像中發(fā)現(xiàn)變化,其主要思想包括3類:模態(tài)獨立關系挖掘、跨模態(tài)數(shù)據(jù)對齊和圖譜卷積建模。其中,模態(tài)獨立關系挖掘探究獨立于模態(tài)的結構關系,消除模態(tài)差異帶來的變化前后對比困難問題,有效衡量變化前后結構關系的相似度,以提高跨模態(tài)變化檢測精度。為挖掘結構關系,文獻[53]引入面向?qū)ο蠓治觯瑯嫿ńY構關系圖卷積自編碼器,從圖結構中提取穩(wěn)健的特征表達,通過損失函數(shù),定義結構關系之間的相似度。跨模態(tài)數(shù)據(jù)對齊思想相關研究較多,其進一步可以分為特征空間對齊[62-63]、幾何空間對齊[57]和分辨率對齊[64],以消除變化前后遙感圖像模態(tài)差異帶來的域偏移問題,提高變化發(fā)現(xiàn)可靠度。特征空間對齊基于正向和反向融合回歸分析、漸進式特征表達,深入挖掘變化前后高維度特征表達,繼而完成高維度特征空間對齊。幾何空間對齊從變化前后跨模態(tài)圖像幾何配準角度切入[55],對齊變化前后遙感圖像的幾何特征。分辨率對齊引入超分重建機制,對齊變化前后遙感圖像的空間分辨率。圖譜卷積建模[56]借助傅里葉變換和圖結構,將遙感圖像特征變換至頻率域,再利用圖卷積提取空譜聯(lián)合特征,從關系層面消除模態(tài)差異帶來的信息干擾問題。此類方法雖然在一定程度上消除了變化前后遙感圖像的域偏移問題,但網(wǎng)絡模型通常由復雜的結構組成,難以保證模型具有穩(wěn)定的收斂性,為模型訓練帶來了挑戰(zhàn)。
1.2.2 多模態(tài)融合變化檢測
多模態(tài)融合變化檢測旨在充分發(fā)揮多種模態(tài)協(xié)同表達優(yōu)勢,其假設變化前后均有對應的多模態(tài)數(shù)據(jù)作為支撐,并通過拼接、降維、對比、加權融合、注意力機制等方法將編碼后的多模態(tài)特征向量融合或互補。目前,多模態(tài)融合變化檢測主要分為二三維信息融合變化檢測和圖文融合變化檢測兩種方法。二三維信息融合變化檢測同時將二維遙感圖像和三維數(shù)字表面模型作為基礎數(shù)據(jù),通過數(shù)字表面模型提供的高程信息,有效輔助變化發(fā)現(xiàn)。就細節(jié)而言,二維和三維信息融合引入對比學習[57]和基于孿生網(wǎng)絡的協(xié)同學習[58],能更有效地表達變化特征。此外,為滿足多模態(tài)融合變化檢測模型訓練需求,通過仿真方式構建同時包含二維遙感圖像、三維數(shù)字表面模型和變化信息真值的數(shù)據(jù)集,以便于開展多模態(tài)融合變化檢測研究[59]。圖文融合變化檢測借助近年來興起的自然語言大模型,形成了兼顧視覺和文本表達優(yōu)勢的變化檢測方法。其中代表性的研究成果有ChangeCLIP[60]。ChangeCLIP借助CLIP圖文表達模型,構建了面向遙感復雜場景的編碼器和解碼器,并融入變化差異特征,實現(xiàn)多模態(tài)聯(lián)合變化特征增強[61]。此外,詳細的消融試驗證明了ChangeCLIP使用的雙時相插值、分數(shù)圖、注意力機制、加權融合等方法提升了模型對多模態(tài)數(shù)據(jù)中語義信息的理解。與單模態(tài)模型相比,多模態(tài)編碼器集成了文本數(shù)據(jù)中特有的高級語義特征,幫助模型獲得了更好的遙感語義理解能力并顯著提升了模型精度。CDVQA是一種面向變化檢測的視覺問答機制,包含多時相特征編碼、多時相融合、多模態(tài)融合和答案預測4個部分,基于圖文表達,更全面地理解圖像中的變化并回答相關的自然語言問題。此類方法雖然利用多模態(tài)數(shù)據(jù)有效增強了特征表達,但同時數(shù)據(jù)依賴度亦顯著提高,預訓練成本高,限制了網(wǎng)絡模型適用范圍。
1.3 輕量級模型到大模型特征表達
輕量級深度學習模型主要分為數(shù)據(jù)融合、數(shù)據(jù)轉換、孿生組合的方法。數(shù)據(jù)融合方法融合雙時相影像輸入現(xiàn)有性能較高的語義分割分類網(wǎng)絡中進行特征學習與分類,將變化檢測任務轉換為分類任務[65]。雙時相融合是其中的關鍵,通常可以簡單地將影像直接進行波段疊加,也可以采取特征加強的方式增強差異信息,以獲取更準確的變化信息[66]。數(shù)據(jù)轉換方法主要是針對雙時相影像因不同來源等原因造成的異質(zhì)性問題,通過域轉換的方法,將輸入影像轉換為特征描述相似的影像,減少因影像差異造成的結果誤差,如GAN網(wǎng)絡生成相同域的影像[67]、雙時相影像特征轉換[68]等。孿生組合方法分為真孿生網(wǎng)絡與偽孿生網(wǎng)絡。真孿生網(wǎng)絡可以共享權值;偽孿生網(wǎng)絡則不會共享特征,增加了特征獲取難度,但更利于改進網(wǎng)絡結構。Transformer是典型的真孿生網(wǎng)絡[69],首先利用權值共享提取深度特征圖,然后構造語義塊輸入Transformer模塊中,采用多尺度或分塊等方式進行處理,最終輸出變化結果[70]。
隨著AI大模型的興起,以SAM、Mamba為代表的大模型能夠檢測和分析遙感影像中的時空變化,有效提高了變化檢測的準確性和效率[71]。SAM視覺編碼器具有提取多尺度特征的能力,引入的語義學習方法具有提取語義特征的能力,從而實現(xiàn)語義級變化檢測[72]。Mamba具有全局特征建模能力,充分學習輸入影像的全局空間上下文信息,從多尺度特征中充分挖掘時空關系,逐步獲得精準的變化信息,優(yōu)于傳統(tǒng)方法中僅將大圖像裁剪為較小塊的做法[73],如ChangeMamba具有時空順序建模、時空交叉建模和時空并行建模能力,能夠更加精確地檢測和分析遙感圖像中的時空變化,有效提高了變化檢測的準確性和效率,在多個基準數(shù)據(jù)集上優(yōu)于現(xiàn)有的CNN和Transformer等方法[74](表3)。
表3 輕量級模型到大模型特征表達研究現(xiàn)狀
Tab. 3
基于CNN的特定任務模型(俗稱“小模型”),其參數(shù)量小,對計算資源的需求較低,結構簡單,響應速度快,但提取特征能力有限,遷移能力弱,往往只適用于單一任務,泛化能力和精度在模型參數(shù)量提升時達到明顯瓶頸。大模型多由大規(guī)模數(shù)據(jù)集預訓練得到,特征表達、語義理解能力強,能夠根據(jù)多模態(tài)數(shù)據(jù)理解其含義和關系,能在未知數(shù)據(jù)或復雜環(huán)境下保持高性能和穩(wěn)定性,具有更多參數(shù)和更深的層次結構,能對復雜的模式和規(guī)律進行準確建模,并通過不斷學習和更新參數(shù)提高性能和準確度;可以作為基礎模型,在此基礎上構建領域及垂類模型,節(jié)省重復訓練時間和計算資源,快速適配各類下游任務。如,SkySense可以靈活組合或單獨使用以適應各種任務,從單模到多模、靜態(tài)到時態(tài)、分類到定位,都展現(xiàn)了其顯著的泛化能力;GeoChat在視覺對話、目標查詢、目標檢測等多任務處理方面表現(xiàn)突出。雖然大模型擁有數(shù)億至數(shù)千億甚至更多的參數(shù),訓練和推理過程需要大量的高性能計算資源,訓練周期長,但是一經(jīng)預訓練完成,其泛化能力、解譯精度、可遷移性和語義理解能力都顯著高于小模型,達到“一個模型可以完成不同地域的多種業(yè)務”的效果。在計算資源有限的條件下,通過知識蒸餾等輕量化方法可以將大模型的知識傳遞到計算資源需求低的小模型中,效果稍有遜色,如原版SAM實際應用效果好于MobileSAM、Light HQ-SAM等版本,邊界吻合度可視化效果更好(如圖5中藍色邊界)。
圖5 SAM不同版本效果
Fig. 5 Results of different SAM versions
1.4 二值到多類別語義特征表達
從變化檢測結果表現(xiàn)形式出發(fā),深度學習驅(qū)動的變化檢測可以分為二值變化檢測和語義變化檢測。二值變化檢測結果只包含變與不變兩種結果,僅在特征層面上進行機械的變化判定,不參考任何類別和語義信息[75]。語義變化檢測表示變化由什么類型轉變?yōu)槭裁搭愋停梢悦鞔_獲取變化范圍與變化類型信息[76]。雖然兩類變化檢測任務所采取的整體策略有所不同,但本質(zhì)差異仍然存在于變化特征表達方式。二值變化檢測專注于特征空間的二值分割,不需要對地物進行更加細致的特征表達;語義變化檢測則需要在特征空間進行多類別的語義分割,且發(fā)掘每一類語義特征的變化信息,對特征表達的要求更加具體、細致。
語義變化檢測主要包括分類后比較、多任務學習、差異特征表達和語義推理等4類方法。分類后比較法[77-80]先利用深度學習網(wǎng)絡對兩期影像進行分類,再比較分類結果得到語義變化檢測結果,適用于缺少變化樣本的情況,但依賴于分類結果的誤差傳遞,分類誤差會影響變化檢測結果。多任務學習法[81-82]一般是孿生編碼器和多任務解碼器通用范式,編碼器是權重共享的孿生結構,同時提取不同時相的語義感知特征圖,然后進行時間融合以生成時空特征,用于區(qū)分變化區(qū)域和未變化區(qū)域,最后利用任務解碼器分別實現(xiàn)二值和語義變化檢測,該方法是目前語義變化檢測的主流方法,但樣本不平衡會降低檢測性能。差異特征表達法[83]是利用兩個結構不同的網(wǎng)絡模型(如非對稱孿生網(wǎng)絡)提取兩期影像的多尺度空間信息和特征表達,精確識別和定位變化區(qū)域,并區(qū)分不同類型的語義變化,這種方法能夠提高模型對復雜變化場景的識別能力,同時提供更準確的語義變化檢測結果,但挖掘復雜場景的差異特征是面臨的挑戰(zhàn)。語義推理法[84]利用兩個獨立的編碼器提取兩期影像的深層語義特征,通過深層變化檢測單元融合特征來識別變化區(qū)域,并利用語義推理模塊分析變化區(qū)域的語義信息,從而推斷出變化前后的類別,但該方面依賴于語義推理模塊的性能(表4)。
表4 二值到多類別語義特征表達研究現(xiàn)狀
Tab. 4
2 遙感影像變化檢測深度學習網(wǎng)絡學習過程的演變
全監(jiān)督模式的遙感變化檢測精度高、穩(wěn)定性強,但制作精細的變化標注耗費大量人力物力,因此,出現(xiàn)了弱監(jiān)督、半監(jiān)督甚至無監(jiān)督的變化檢測網(wǎng)絡學習方法(圖6)的研究,這些方法所解決的任務涵蓋了變化前后同構數(shù)據(jù)和異構數(shù)據(jù)范疇。
圖6 網(wǎng)絡學習方法
Fig. 6 Network learning methods
2.1 全監(jiān)督變化檢測
全監(jiān)督變化檢測在有標簽的數(shù)據(jù)上進行模型訓練,通過端到端的方式自動學習圖像中變化的模式和特征,無須手工設計特征,能夠簡化流程,提高了變化檢測的精度和穩(wěn)健性。全監(jiān)督變化檢測需要制作有標簽的訓練數(shù)據(jù),這些標簽可以是像素級的標注,也可以是語義級別的標注。
全監(jiān)督變化檢測可分為卷積神經(jīng)網(wǎng)絡、注意力網(wǎng)絡、語義變化網(wǎng)絡等方法(表5)。基于卷積神經(jīng)網(wǎng)絡的全監(jiān)督變化檢測[85-93]研究突破了傳統(tǒng)變化檢測技術框架的束縛,利用端到端的神經(jīng)網(wǎng)絡學習圖像的時空特征,識別出變化區(qū)域,有效提高了變化檢測的準確性和細節(jié)表現(xiàn),但有過擬合風險,模型解釋性差,對變化類型敏感。基于注意力網(wǎng)絡的全監(jiān)督變化檢測可以通過全局關系感知精準的變化信息[48],濾掉不相關的變化[93],對變化信息進行強化和細化,獲得更準確的變化[94]。采用注意力模塊對多尺度差異特征進行融合[95-103],增強了模型對變化區(qū)域的關注度,同時保留了豐富的空間細節(jié)[99],但過度依賴注意力突出的區(qū)域,忽略了其他潛在重要的變化信號。語義變化網(wǎng)絡全監(jiān)督變化檢測能同時提取變化區(qū)域及其變化前后語義類別[102-103],使得變化檢測結果更加具有可解釋性和實用性,對于地球觀測的實際應用至關重要[104]。但在有限的變化樣本條件下,語義信息的利用仍然是挑戰(zhàn)。
表5 全監(jiān)督變化檢測研究現(xiàn)狀
Tab. 5
2.2 弱/半監(jiān)督變化檢測
弱/半監(jiān)督學習從不完整的監(jiān)督信息中進行優(yōu)選,使模型能夠?qū)?shù)據(jù)進行有意義的學習和推斷。弱/半監(jiān)督學習不要求每個訓練樣本都有準確的標簽,使用包含部分標記、噪聲標記、不準確標記的標簽數(shù)據(jù)進行深度神經(jīng)網(wǎng)絡模型訓練,可以緩解依靠樣本標注帶來的壓力。通過模型自動獲得未標注數(shù)據(jù)的粗提取結果,基于特征一致性進行評估,獲得置信度較高的偽樣本。將高質(zhì)量偽樣本與有標注的樣本數(shù)據(jù)一同輸入模型中進行訓練,但由于缺乏標記數(shù)據(jù),模型難以充分訓練(表6)。
表6 弱/半監(jiān)督變化檢測研究現(xiàn)狀
Tab. 6
2.2.1 半監(jiān)督變化檢測
半監(jiān)督變化檢測方法根據(jù)偽樣本生成機制,可以分為基于知識推理的方法和基于樣本生成的方法。基于知識推理的方法,利用有標簽數(shù)據(jù)設計一種有效的知識推理機制,結合現(xiàn)有信息通過模型增強或教師-學生模型遷移有效性判別,獲得可用的偽標簽數(shù)據(jù)。模型增強判別通過設計可靠的樣本判別機制,利用有限的有標簽樣本數(shù)據(jù),對未標注數(shù)據(jù)進行處理,獲取高置信度的標簽。樣本判別機制通過加強樣本上下文關系,減少對象發(fā)生類別混淆,從而確定可靠偽樣本[106-107],也可以利用多分支特征進行交叉監(jiān)督和信息共享[116],加強樣本特征相關性。教師-學生模型遷移判別利用教師模型知識遷移進行特征對齊,從而實現(xiàn)在無標簽樣本中的泛化性,無須在模型中設置復雜的判別機制。此方法關鍵在于知識遷移,多采用漸進優(yōu)化的方式[117],以及多尺度機制進行特征對齊與共享[118],以減小類內(nèi)差異增強不變表示[45]。考慮到不同模型的性能差異,為進一步提高偽標簽的可靠性,可整合多個變化檢測模型進行優(yōu)化[108]。但該類方法模型結構較復雜,難以通過訓練準確進行特征遷移。
基于樣本生成的方法利用生成式深度學習網(wǎng)絡實現(xiàn)未標注數(shù)據(jù)泛化,根據(jù)網(wǎng)絡用途可以分為對抗轉換方法和對抗生成方法。對抗轉換方法是利用判別器進行域轉換對齊特征,提高數(shù)據(jù)泛化能力[119],基于少量樣本數(shù)據(jù)生成未標注數(shù)據(jù)的偽標簽。其核心是利用判別器保證標記數(shù)據(jù)和未標記數(shù)據(jù)之間的特征分布一致性,如通過網(wǎng)絡生成預測[112],或利用一致性正則化生成器[111],彌補領域差異,獲取可靠的偽標簽數(shù)據(jù)。而對抗生成方法是利用影像生成技術進行樣本擴充,生成對抗網(wǎng)絡能夠通過風格遷移增加圖像的多樣性,提高模型的泛化能力,但需要人為控制,無法實現(xiàn)端到端學習,如此復雜過程易造成誤差積累。
2.2.2 弱監(jiān)督變化檢測
弱監(jiān)督變化檢測方法與半監(jiān)督學習的區(qū)別在于獲取的標簽數(shù)據(jù)不準確,通常僅使用區(qū)域性標注數(shù)據(jù),通過對模糊變化區(qū)域判別并進行迭代,最終得到像素級變化,但其準確度受限。近年來,弱監(jiān)督語義分割模型被引入高分辨率遙感影像領域,用于建筑物的變化檢測等相關工作[113]。弱監(jiān)督變化檢測可分為類激活映射(class activation map,CAM)和模糊聚類兩類方法。類激活映射方法是計算圖像不同區(qū)域特定類別的相關性,定位變化特征區(qū)域,適用于圖像分類任務。為了獲得較精確位置,基于CAM進行優(yōu)化,如通過不同視圖的CAMs執(zhí)行相互學習,實現(xiàn)了在混淆區(qū)域的一致性約束[73],引入SAM分割模型進行像素級定位,取得準確的像素級變化[114]。模糊聚類是通過特征轉換等方法進行模糊區(qū)域提取[120],從而挑選樣本進行訓練。其關鍵在于面向聚類過程進行優(yōu)化,在聚類過程中防止類別干擾[121],主要優(yōu)化思路包括模糊區(qū)域特征融合[122]、區(qū)域約束或引導[120]。
2.3 無監(jiān)督變化檢測
隨著深度學習技術的不斷發(fā)展,無監(jiān)督學習方法開始在變化檢測任務中使用(表7)。其中,文獻[123—124]的研究是無監(jiān)督變化檢測較早的嘗試[56]。目前,無監(jiān)督變化檢測可以分為基于聚類分析的無監(jiān)督變化檢測、基于自監(jiān)督學習的無監(jiān)督變化檢測和面向異構數(shù)據(jù)的無監(jiān)督變化檢測。
表7 無監(jiān)督變化檢測研究現(xiàn)狀
Tab. 7
基于聚類分析的無監(jiān)督變化檢測通常利用深度學習網(wǎng)絡提取高維度特征,然后引入傳統(tǒng)的聚類分析,如C-Means[125]、稀疏表示[126]、字典學習[127]、極大似然估計[42]等,在特征空間進行二值聚類,以發(fā)現(xiàn)變化信息。深度學習網(wǎng)絡在此過程中作為特征生成器,其提取的特征可區(qū)分度直接影響了變化檢測可靠性。因此,此類研究在結合傳統(tǒng)聚類分析的同時,在神經(jīng)網(wǎng)絡結構設計上做了大量研究。文獻[125]面向SAR圖像的特點,設計目標導向型深度學習網(wǎng)絡,以削弱斑點噪聲影響;文獻[126]提出基于塊相似圖矩陣的變化檢測方法,旨在增強深度學習網(wǎng)絡對不同數(shù)據(jù)的泛化能力。聚類方法與深度學習網(wǎng)絡的高效、協(xié)同優(yōu)化方法仍是挑戰(zhàn)。
自監(jiān)督學習作為一種典型的無監(jiān)督學習思想,其上游任務通過學習高維度特征表達,實現(xiàn)偽標簽生成;然后,下游任務通過選擇可靠的偽標簽,實現(xiàn)自監(jiān)督學習。目前,該思想已被引入無監(jiān)督變化檢測任務,此類方法通常引入或定義光譜-空間圖模型[129]、循環(huán)交替機制[130]、結構回歸融合[62]、對比學習[63]、空譜注意力機制[31]、多時序豐度張量[56]等與自監(jiān)督學習相結合,以增強無監(jiān)督變化檢測可靠度。但訓練過程復雜,難以實現(xiàn)端到端的訓練。
面向異構數(shù)據(jù)無監(jiān)督變化檢測是面向變化前后數(shù)據(jù)模態(tài)存在差異情景,利用帶有標簽的源域數(shù)據(jù)及不含有標簽的目標域數(shù)據(jù)訓練網(wǎng)絡模型,實現(xiàn)目標域數(shù)據(jù)變化檢測,包括模型微調(diào)、域自適應遷移、知識蒸餾、樣本合成等方法。模型微調(diào)通常包括預訓練和模型微調(diào)兩個步驟[25,131],預訓練通過共享有監(jiān)督的變化模型和無標簽的生成模型參數(shù),獲取預訓練模型;在微調(diào)階段選擇置信度較高的樣本進行訓練,以提高模型對目標域的適應能力。域自適應遷移基于遷移學習,形成了多樣化的變化檢測框架,引入基于生成對抗網(wǎng)絡的圖像風格遷移[134]、特征空間域自適應對齊機制[135]、混合注意力機制[136],緩解異構圖像之間模態(tài)差異帶來的干擾因素。然后,提取域不變特征,從不同模態(tài)前后時相遙感圖像中識別變化信息。知識蒸餾以解決高質(zhì)量圖像訓練得到的網(wǎng)絡在低質(zhì)量圖像變化檢測任務中性能顯著下降為研究切入點[132],其核心思想是利用從高質(zhì)量圖像對獲得的任務知識,來指導模型在處理質(zhì)量差異較大的圖像對時的學習過程。通常引入關聯(lián)蒸餾方法(包括自相關、交叉相關和全局相關),強制學生模型復制教師模型中的關聯(lián)關系,而不僅僅關注單個特征,這確保了有效的知識遷移,同時保持學生模型的訓練靈活性。樣本合成旨在解決偽標簽質(zhì)量低導致的性能下降甚至模型崩潰問題,該研究人工創(chuàng)建變化區(qū)域,并在真實樣本上進行合成樣本增強,一方面提升標簽的可靠性,另一方面在減小域偏移的同時生成更多可遷移的樣本,以提升變化檢測可靠性[133]。
此外,尚有部分方法引入可變形卷積[137]、圖卷積神經(jīng)網(wǎng)絡[138]、概率模型[26]和卷積自編碼器[139],且均有自身的獨特性。無監(jiān)督變化檢測方法雖然減輕了人工標注,并與傳統(tǒng)聚類分析、自監(jiān)督學習、遷移學習、知識蒸餾、樣本合成等思想相結合,但其訓練過程煩瑣,且精度與全監(jiān)督、弱/半監(jiān)督方法仍然存在差距。
3 遙感變化檢測深度學習方法的發(fā)展方向趨勢
深度學習驅(qū)動的變化檢測技術在變化特征表達、網(wǎng)絡學習過程方面均取得了突破,但仍然面臨諸多挑戰(zhàn),主要體現(xiàn)在兩方面。一是變化特征表達穩(wěn)定性與網(wǎng)絡計算復雜度之間的平衡問題。為提升變化特征表達的穩(wěn)定性,通常需要引入高階注意力機制[9]、圖結構[1]等模塊,或構建遙感大模型[18],以增強低/高層次、局部/全局和時空聯(lián)合特征表達能力。但同時,這些復雜模塊和數(shù)以億計參數(shù)的遙感大模型顯著提高了網(wǎng)絡計算復雜度,大幅拉長了網(wǎng)絡訓練和測試時間,且更加依賴高性能計算設備。如何平衡變化特征表達有效性和網(wǎng)絡計算復雜度,減輕高性能計算設備依賴,是未來深度學習驅(qū)動的變化檢測無法回避的挑戰(zhàn)。二是訓練樣本依賴度與精度之間的平衡問題。為應對自然資源調(diào)查監(jiān)測、智能化測繪任務的時效性需求,深度學習驅(qū)動的變化檢測已經(jīng)開始從全監(jiān)督學習模式,向弱/半監(jiān)督和無監(jiān)督學習模式轉變。這最大限度地緩解了訓練樣本依賴,縮短了網(wǎng)絡訓練周期,減輕了人工標注成本;但同時,變化檢測精度顯著下降。即使充分利用開放獲取的、歷史任務積累的樣本數(shù)據(jù)輔助無監(jiān)督學習模式,所取得的精度仍然與全監(jiān)督學習模式存在顯著差距。此外,即使具備大量訓練樣本,全監(jiān)督模式訓練得到的網(wǎng)絡,仍然難以獲取滿足高精度監(jiān)測任務的需求,依然需要人機協(xié)同模式精化網(wǎng)絡預測結果。視覺-語言模型和生成式人工智能模型分別為變化特征表達和訓練樣本依賴問題提供了全新解決思路。這些方法的引入,或?qū)樯鲜鎏魬?zhàn)帶來有效解決方案。
3.1 圖文融合模式變化檢測
近年來,視覺-語言表示學習成為人工智能領域的熱門主題,這類學習方法利用深度學習網(wǎng)絡,從圖像-文本對中學習可區(qū)分度更高的深度特征,并開始應用于諸多遙感視覺計算領域,包括變化檢測[140]。變化檢測的圖文融合模式(圖7)引入文本提示(前景和背景提示)輔助變化發(fā)現(xiàn)。首先,設計獨特的文本和圖像編碼器,充分表達文本和圖像信息。然后,將文本和圖像特征融合,并設計視覺-文本聯(lián)合解碼器,充分挖掘圖像和文本提示中所反映的變化特征,通過增強變化檢測語義信息方式,提升變化發(fā)現(xiàn)可靠性。
圖7 遙感變化檢測的圖文融合模式
Fig. 7 Image-text fusion mode for remote sensing change detection
ChangeCLIP[60]是變化檢測圖文融合模式的成功嘗試,設計了多模態(tài)編碼器、差異特征補償和視覺語言驅(qū)動解碼器3個部分。多模態(tài)編碼器包括語言編碼器和視覺編碼器,且均為Transformer編碼器結構,其中文本編碼器是基于Transformer結構的語言模型,可以根據(jù)已有的文本提示模板(如前景提示=“建筑物”,背景提示=“背景”)生成文本特征。通過多模態(tài)編碼器將遙感影像和文本數(shù)據(jù)編碼為特征向量,計算視覺文本特征之間的“得分圖”,以將視覺和文本特征之間的高級語義特征連接并充分融合;隨后通過差異特征補償模塊學習雙時相差異特征,獲取變化區(qū)域的抽象語義信息;最終將差異特征和文本提示一并輸入視覺語言驅(qū)動解碼器進行上采樣,從而完成變化圖斑的預測。ChangeCLIP在LEVIR-CD[66]、LEVIR-CD+[66]、WHUCD[141]、CDD[142]和SYSU-CD[98]數(shù)據(jù)集上進行了全面測試,詳細測試結果見文獻[60]。這里以LEVIR-CD上的測試結果為例說明ChangeCLIP的潛力。LEVIR-CD數(shù)據(jù)集是一個大型的建筑物變化檢測數(shù)據(jù)集,由637幅大小為1024×1024像素的雙時相超高分辨率遙感圖像組成,時間跨度為5~14年,覆蓋美國得克薩斯州20個地區(qū),土地利用變化信息豐富,尤其是建筑物的種類多樣,如別墅住宅、高層公寓、小車庫和大型倉庫等,已在變化檢測研究的試驗驗證中得到了廣泛應用。具體地,ChangeCLIP在LEVIR-CD數(shù)據(jù)集上取得的mIoU(mean intersection over union)精度達到了92.18%,預示了該模式的巨大成功。相應的可視化結果如圖8所示,其中第3列是變化真值,第4列是ChangeCLIP的預測結果,第5列采用紅色和綠色標示出ChangeCLIP預測結果的漏檢和誤檢區(qū)域,漏檢占比為9.33%,誤檢占比為6.60%,漏檢和誤檢情況均較少,主要出現(xiàn)在建筑物邊界區(qū)域。
圖8 ChangeCLIP在LEVIR-CD數(shù)據(jù)集上的變化檢測可視化結果
注:前景提示=“建筑物”,背景提示=“背景”。
Fig. 8 Visualization results of ChangeCLIP on the LEVIR-CD dataset
目前,用于遙感變化檢測的文本提示仍然有限,文本提示編碼器在樣本較少的情況下,難以充分發(fā)揮圖文融合優(yōu)勢。同時,預示著圖文融合變化檢測方法具備較大的精度提升空間。
3.2 生成式變化檢測
去噪擴散模型(denoising diffusion probabilistic models,DDPM)將概率論、隨機微分方程和深度學習有機結合[143-144],由加噪和去噪過程組成,分別對應正向和逆向(重建)過程。正向過程通過利用擴散過程規(guī)律,有序添加噪聲;逆向過程利用深度學習,求解隨機微分方程參數(shù),不斷消除噪聲,并引入標號、變化信息,生成目標數(shù)據(jù)。生成式變化檢測GCD(generative change detection)-DDPM[4]基于DDPM,將變化前后圖像與正向過程生成的噪聲圖像進行波段疊加,分別輸入深度學習編碼器,實現(xiàn)噪聲與地物信息聯(lián)合的深度特征表達(圖9)。然后,設計含有噪聲的聯(lián)合特征噪聲抑制模塊及解碼器,結合DDPM的重建過程,直接生成變化圖。該過程重塑了遙感變化檢測技術框架,取代了傳統(tǒng)逐像素分類策略,能夠通過迭代推理過程自適應地重新校準變化檢測結果,同時準確區(qū)分多樣化場景中的細微和不規(guī)則變化,顯著提高了變化檢測精度,但DDPM的逆向(重建)過程耗費時間長,效率較低。
圖9 生成式變化檢測
Fig. 9 Generative change detection
GCD-DDPM在LEVIR-CD[66]、CDD[142]、WHUCD[141]和GVLM[145]數(shù)據(jù)集上進行了全面測試,詳細結果見文獻[4]。其中,在LEVIR-CD數(shù)據(jù)集上的mIoU精度達到了83.56%,雖然不及ChangeCLIP的精度,但具備一定潛力。LEVIR-CD數(shù)據(jù)集的概略信息如3.1節(jié)所述,這里不再贅述。GCD-DDPM在LEVIR-CD數(shù)據(jù)集上的可視化結果如圖10所示,其中第4列是GCD-DDPM的預測結果,第5列采用紅色和綠色標示出GCD-DDPM預測結果的漏檢和誤檢區(qū)域,漏檢占比為8.76%,誤檢占比為9.32%。可以發(fā)現(xiàn),GCD-DDPM能夠檢測變化主體區(qū)域,變化區(qū)域的邊界較容易出現(xiàn)漏檢和誤檢現(xiàn)象。但是,DDPM具備理論的可解釋性以及方法的可拓展性。目前,生成式變化檢測仍然限于引入現(xiàn)有的擴散模型,并與注意力機制、深度學習編碼器融合,尚未對擴散模型的原理進行研究和突破。而生成式變化檢測的核心驅(qū)動力,即擴散模型的穩(wěn)定性仍有待學者們繼續(xù)深入研究。
圖10 GCD-DDPM在LEVIR-CD數(shù)據(jù)集上的變化檢測可視化結果
Fig. 10 Visualization results of GCD-DDPM on the LEVIR-CD dataset
3.3 人機協(xié)同變化檢測
針對智能變化檢測模型算法與應用需求結合不緊密、尚難以滿足業(yè)務需求等問題,通過人機協(xié)同技術把機器學習與專家知識、人腦與機器的優(yōu)勢結合起來,電腦負責自動化處理,將處理結果推送給解譯人員,解譯人員根據(jù)經(jīng)驗和自動處理結果進行綜合判斷與確認,再將綜合決策結果反饋給電腦,使得系統(tǒng)被訓練得更智能,解決問題的能力越來越強。大模型的興起,出現(xiàn)了SAM、SEEM(segment everything everywhere all at once),以及MobileSAM、EfficientSAM、SAM-Lightening等輕量級模型,通過提示學習真正實現(xiàn)人機協(xié)同[146-147],如SEEM相比SAM支持更多模態(tài)的prompt,可以任意組合視覺、文本、引用區(qū)域提示信息,實現(xiàn)多功能和交互式分割[148]。
圖11 人機協(xié)同變化檢測
Fig. 11 Human-computer collaborative change detection
利用SAM進行交互式地物提取,不僅能夠提高提取效率,而且通過人工交互提示學習,保證了提取結果尤其是邊界的精準性,真正實現(xiàn)了人機協(xié)同的理念,部分提取效果如圖12所示。
圖12 SAM地物提取效果
注:藍色區(qū)域表示SAM提示學習提取效果。
Fig. 12 Land cover extraction results of SAM
大模型時代,智能體是基于大模型的全新智能應用形態(tài),具備感知、思考、行動和進化能力。在感知方面,應用多模態(tài)數(shù)據(jù)處理技術使智能體能夠從復雜的業(yè)務環(huán)境中識別并理解關鍵信息;在思考方面,結合知識圖譜和語言大模型,進行邏輯推理與策略規(guī)劃,以提升決策效率和質(zhì)量;在行動層面,通過強化學習和智能規(guī)劃技術使智能體能快速實施決策;在進化方面,利用在線學習與自我優(yōu)化機制使智能體在與環(huán)境的互動中持續(xù)進化,不斷提升自身的感知精度、決策智能和執(zhí)行力。智能體輔助的成長式遙感智能變化檢測模式,是通過變化感知智能體自動生成變化信息,變化信息引導業(yè)務生產(chǎn),形成生產(chǎn)數(shù)據(jù),生產(chǎn)數(shù)據(jù)經(jīng)過質(zhì)量控制智能體形成最終成果,各智能體信息反饋給多模態(tài)遙感大模型,從而實現(xiàn)大模型-多智能體相互協(xié)同、自組織、自學習、自適應,持續(xù)優(yōu)化迭代,形成一個自進化的智能系統(tǒng),逐步提升遙感變化檢測自動化、精準化、智能化水平。以Change-Agent為代表的交互式智能體,將多層次變化解釋模型作為眼睛,將大型語言模型作為大腦,根據(jù)用戶指令進行全面的變化解釋和深入分析,實現(xiàn)了對地表變化的交互式和全面的解釋和分析,具有智能對話和定制服務能力,為智能變化檢測與解釋分析開辟了新的機遇[18]。
4 結束語
本文從變化特征表達和網(wǎng)絡學習過程兩個維度,總結了現(xiàn)有深度學習驅(qū)動的遙感變化檢測方法,顧及多模態(tài)遙感對地觀測技術、深度學習前沿技術的發(fā)展,以及潛在應用導向。總結了4類特征表達的研究進展,即局部、全局到時空聯(lián)合,單一模態(tài)到多模態(tài),輕量級模型到大模型,二值到多類別語義變化特征表達;分析了全監(jiān)督、弱/半監(jiān)督和無監(jiān)督網(wǎng)絡學習過程的特點和發(fā)展關系。基于當前視覺-文本大模型和生成式人工智能的發(fā)展機遇,論述了未來遙感變化檢測所面臨的挑戰(zhàn),并結合人機協(xié)同的高可信變化檢測應用導向,展望了遙感變化檢測的未來發(fā)展。
由變化特征表達可知:局部、全局到時空聯(lián)合特征表達方面,空間和時間的耦合建模仍是一個難題,訓練和解釋性方面存在挑戰(zhàn);單一模態(tài)到多模態(tài)特征表達方面,多模態(tài)特征協(xié)同表達是難題,對預訓練大模型的依賴程度高;輕量級模型到大模型特征表達方面,大模型訓練和推理過程依賴大量的高性能計算資源,大模型的高效訓練、輕量化部署是挑戰(zhàn);二值到多類別語義特征表達方面,變化檢測效果依賴語義推理能力,挖掘復雜場景的差異特征是面臨的挑戰(zhàn)。從網(wǎng)絡學習過程看,全監(jiān)督語義變化檢測在有限的變化樣本條件下,語義信息的利用仍然是挑戰(zhàn);弱/半監(jiān)督變化檢測模型結構復雜,易造成誤差積累,難以準確獲得像素標注;無監(jiān)督變化檢測模型訓練過程復雜,難以實現(xiàn)端到端的訓練。如何平衡變化特征表達有效性和網(wǎng)絡計算復雜度,減輕高性能計算設備依賴;如何平衡訓練樣本依賴度與精度之間的關系;如何實現(xiàn)數(shù)據(jù)-模型-知識的協(xié)同表達與迭代反饋等;是未來深度學習驅(qū)動的變化檢測無法回避的挑戰(zhàn)。
變化檢測應用場景復雜多樣,單一方法、單一環(huán)節(jié)難以滿足應用需求,需要回歸領域本身去思考問題,摒棄拿來主義的簡單思維,將應用場景、數(shù)據(jù)源、領域知識、模型方法結合起來。近年來,實景三維中國、國土空間規(guī)劃和全球生態(tài)環(huán)境監(jiān)測等應用在區(qū)域、全球范圍全面展開,從應用場景、數(shù)據(jù)源、領域知識方面影響著遙感變化檢測方法的發(fā)展。二維和三維協(xié)同變化信息發(fā)現(xiàn)[149]、高維度森林資源變化檢測技術體系[150]、場景級變化檢測[151]、變化矢量檢測[152]亦將在各自應用領域得到發(fā)展。同時,深度學習技術的不斷突破仍然無法在精細化變化檢測中取代人的干預,未來變化檢測仍然要統(tǒng)籌深度學習與專家知識,計算機負責海量數(shù)據(jù)處理和自動化檢測,人的綜合決策亦需要及時反饋給計算機,以形成一種持續(xù)增強學習的智能變化檢測生態(tài)系統(tǒng)。