近日,人工智能頂刊《自然·機(jī)器智能》(Nature Machine Intelligence, IF=23.9)在線發(fā)表了題為“Sampling-enabled scalable manifold learning unveils the discriminative cluster structure of high-dimensional data”的研究成果,提出一種基于均勻地標(biāo)采樣的可伸縮流形學(xué)習(xí)方法SUDE,能夠?qū)崿F(xiàn)高維數(shù)據(jù)的快速降維,提升類簇之間的可區(qū)分性,為流形數(shù)據(jù)的可視化、分類和聚類任務(wù)提供支撐。
該研究在龔健雅院士、吳華意教授指導(dǎo)下,由測(cè)繪遙感信息工程全國(guó)重點(diǎn)實(shí)驗(yàn)室和遙感信息工程學(xué)院共同完成,論文第一作者為實(shí)驗(yàn)室2024屆博士畢業(yè)生、遙感信息工程學(xué)院博士后彭德華,通訊作者為桂志鵬教授。合作者還包括遙感信息工程學(xué)院2025級(jí)博士生衛(wèi)文章、斯坦福大學(xué)地球系統(tǒng)科學(xué)系博士后栗法和東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院桂杰教授。
圖1 SUDE概念框架及在人造數(shù)據(jù)集上的表現(xiàn)
流形假設(shè)認(rèn)為高維數(shù)據(jù)往往位于高維歐氏空間中的平滑低維流形之上,直接在原始特征空間對(duì)高維數(shù)據(jù)進(jìn)行分類和聚類存在潛在的維度災(zāi)難問(wèn)題。流形學(xué)習(xí)旨在揭示高維空間中復(fù)雜非線性流形的內(nèi)在低維結(jié)構(gòu),將數(shù)據(jù)嵌入到聚類友好的低維特征空間,緩解維度災(zāi)難帶來(lái)的負(fù)面影響。盡管現(xiàn)有技術(shù)(如t-SNE和UMAP)已在諸多領(lǐng)域廣泛應(yīng)用,但對(duì)于類簇的區(qū)分能力相對(duì)有限,難以保留連續(xù)的拓?fù)浣Y(jié)構(gòu),且計(jì)算的可伸縮性存在不足,限制了其在大規(guī)模流形數(shù)據(jù)處理場(chǎng)景下的適用性。
圖2 SUDE在真實(shí)數(shù)據(jù)集的性能表現(xiàn)
針對(duì)上述問(wèn)題,論文提出一種基于均勻地標(biāo)采樣與約束局部線性嵌入的可擴(kuò)展流形學(xué)習(xí)方法SUDE。它通過(guò)地標(biāo)采樣選取部分重要樣本作為地標(biāo)點(diǎn)進(jìn)行嵌入學(xué)習(xí),確定高維數(shù)據(jù)在低維空間的主要骨架,再根據(jù)非地標(biāo)點(diǎn)與地標(biāo)點(diǎn)的局部線性關(guān)系將其快速嵌入至低維空間,極大提升了非線性流形學(xué)習(xí)的計(jì)算伸縮性。論文創(chuàng)新性地提出一種重尾低維概率分布,增強(qiáng)了類簇之間的分離性,并通過(guò)對(duì)非地標(biāo)點(diǎn)嵌入施加最鄰近距離約束,緩解了欠采樣引發(fā)的臟簇問(wèn)題。
圖3 SUDE應(yīng)用于心電圖異常心跳檢測(cè)
論文在27個(gè)不同類型的數(shù)據(jù)集上驗(yàn)證了SUDE的有效性,將方法應(yīng)用于單細(xì)胞類型注釋、偽軌跡分析和心電圖異常檢測(cè)等典型場(chǎng)景。結(jié)果表明SUDE在聚類、分類精度和計(jì)算效率上均取得顯著優(yōu)勢(shì),其中在UCI、CIFAR10、MNIST和FMNIST等12個(gè)真實(shí)數(shù)據(jù)集上的平均聚類精度比主流流形學(xué)習(xí)方法t-SNE和UMAP分別高11.9%和5.2%,計(jì)算效率分別提升6.5倍和2.3倍。
論文鏈接:https://www.nature.com/articles/s42256-025-01112-9