近期,中國科學院合肥物質科學研究院團隊將多模態融合方法應用于遙感圖像全色銳化領域。
遙感圖像全色銳化技術旨在融合低分辨率的多光譜圖像與高分辨率的全色圖像,生成兼具高空間分辨率和豐富光譜信息的遙感影像。文本引導的多模態學習方法在自然圖像領域已取得進展,但由于缺乏全色銳化領域多模態數據集以及遙感場景的復雜性等問題,對準確提取語義信息提出了挑戰。
研究團隊提出了新的文本引導多模態融合框架TMMFNet。該框架基于多模態大語言模型,結合超分辨率模型、地理空間分割模型及思維鏈提示技術,為LRMS圖像生成高質量的語義描述文本構建出面向全色銳化的多模態遙感數據集。此基礎上,團隊設計了文本增強模塊與文本調制模塊兩個核心融合單元,將文本蘊含的高層語義信息注入融合網絡,引導并優化視覺特征的融合過程。
在WorldView-II、GaoFen2和WorldView-III等公開衛星數據集上的實驗結果顯示,這一框架在峰值信噪比和結構相似性等評價指標上展現出優越性能。
相關研究成果發表在IEEE Transactions on Geoscience and Remote Sensing(IEEE TGRS)上。
論文鏈接
基于視覺—文本多模態融合的遙感圖像全色銳化網絡
多光譜影像語義描述生成方法
本文鏈接:研究提出基于視覺—文本多模態融合的遙感圖像全色銳化方法http://www.sq15.cn/show-12-2145-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 金屬鹵化物發光動力學研究取得進展