近日,人工智能頂刊《自然·機器智能》(Nature Machine Intelligence, IF=23.9)在線發(fā)表了題為“Sampling-enabled scalable manifold learning unveils the discriminative cluster structure of high-dimensional data”的研究成果,提出一種基于均勻地標(biāo)采樣的可伸縮流形學(xué)習(xí)方法SUDE,能夠?qū)崿F(xiàn)高維數(shù)據(jù)的快速降維,提升類簇之間的可區(qū)分性,為流形數(shù)據(jù)的可視化、分類和聚類任務(wù)提供支撐。
該研究在龔健雅院士、測繪遙感信息工程國家重點實驗室吳華意教授和我院桂志鵬教授指導(dǎo)下完成,論文第一作者為我院地理信息工程系博士后彭德華(我院14級本科生),通訊作者為桂志鵬教授。合作者還包括我院25級博士生衛(wèi)文章、斯坦福大學(xué)地球系統(tǒng)科學(xué)系博士后栗法(我院12級本科生)和東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院桂杰教授。武漢大學(xué)遙感信息工程學(xué)院為第一作者單位。
圖1 SUDE概念框架及在人造數(shù)據(jù)集的表現(xiàn)
流形假設(shè)認(rèn)為高維數(shù)據(jù)往往位于高維歐氏空間中的平滑低維流形之上,直接在原始特征空間對高維數(shù)據(jù)進(jìn)行分類和聚類存在潛在的維度災(zāi)難問題。流形學(xué)習(xí)旨在揭示高維空間中復(fù)雜非線性流形的內(nèi)在低維結(jié)構(gòu),將數(shù)據(jù)嵌入到聚類友好的低維特征空間,緩解維度災(zāi)難帶來的負(fù)面影響。盡管現(xiàn)有技術(shù)(如t-SNE和UMAP)已在諸多領(lǐng)域廣泛應(yīng)用,但對于類簇的區(qū)分能力相對有限,難以保留連續(xù)的拓?fù)浣Y(jié)構(gòu),且計算的可伸縮性存在不足,限制了其在大規(guī)模流形數(shù)據(jù)處理場景下的適用性。
圖2 SUDE在真實數(shù)據(jù)集的性能表現(xiàn)
針對上述問題,論文提出一種基于均勻地標(biāo)采樣與約束局部線性嵌入的可擴(kuò)展流形學(xué)習(xí)方法SUDE。它通過地標(biāo)采樣選取部分重要樣本作為地標(biāo)點進(jìn)行嵌入學(xué)習(xí),確定高維數(shù)據(jù)在低維空間的主要骨架,再根據(jù)非地標(biāo)點與地標(biāo)點的局部線性關(guān)系將其快速嵌入至低維空間,極大提升了非線性流形學(xué)習(xí)的計算伸縮性。論文創(chuàng)新性地提出一種重尾低維概率分布,增強了類簇之間的分離性,并通過對非地標(biāo)點嵌入施加最鄰近距離約束,緩解了欠采樣引發(fā)的臟簇問題。
圖3 SUDE應(yīng)用于心電圖異常心跳檢測
論文在27個不同類型的數(shù)據(jù)集上驗證了SUDE的有效性,將方法應(yīng)用于單細(xì)胞類型注釋、偽軌跡分析和心電圖異常檢測等典型場景。結(jié)果表明,SUDE在聚類、分類精度和計算效率上均取得顯著優(yōu)勢,其中在UCI、CIFAR10、MNIST和FMNIST等12個真實數(shù)據(jù)集上的平均聚類精度比主流流形學(xué)習(xí)方法t-SNE和UMAP分別高11.9%和5.2%,計算效率分別提升6.5倍和2.3倍。
論文鏈接:
https://www.nature.com/articles/s42256-025-01112-9