2D人體姿態估計是一項面向人體對象的基礎視覺感知任務,旨在通過圖像或視頻精準定位人體姿態關鍵點位置,為理解人體運動和行為提供結構化數據。然而,現有方法在復雜場景下難以兼顧空間定位準確性與時間運動連貫性,尤其在視頻中如何保持姿態估計的穩定性是一大挑戰。同時,在獲得2D人體關鍵點基礎上,3D人體姿態估計致力于恢復人體關鍵點在三維空間中的位置,這一技術在虛擬現實、運動分析、人機交互等領域具有廣泛應用。然而,這一過程面臨“深度模糊”等固有挑戰,即同一組2D關鍵點或對應多個合理的3D姿態。目前,基于擴散生成式框架的方法一定程度上緩解了這一問題,但由于模型缺乏對人體外觀輪廓、語義理解等方面的認識,導致在預測中生成不合理的姿態,這一問題在遮擋嚴重或人群密集等復雜場景下較為突出。
近日,中國科學院上海微系統與信息技術研究所研究團隊,在視覺人體姿態估計研究中取得進展。團隊圍繞2D及3D人體姿態估計兩項任務,分別提出了創新方法。相關研究成果發表在IEEE Transactions on Circuits and Systems for Video Technology和IEEE Transactions on Multimedia上。
團隊提出了高效的層次化對比一致性約束(HICCON),其可靈活嵌入多種姿態估計模型中,提升2D姿態估計性能。該方法在空間域上捕捉建模關鍵點與身體部件之間的關系,在時間域上捕捉幀與片段之間的運動模式。同時,HICCON可分別從空間與時間兩個維度,提取關鍵點級、部件關系級、實例級及片段級等不同粒度多層次特征,并施加對比學習約束,增強模型對復雜姿態的判別能力。實驗表明,在主流視頻姿態數據集PoseTrack上,結合HICCON的多個模型均超過基準性能,且該方法表明了對比學習機制在人體視覺表征建模中的應用潛力和重要作用。
團隊進一步提出了MMCPose模型,將多模態人體先驗作為條件信號,引導擴散過程生成合理且準確的3D姿態。該模型融合了人體關節拓撲關系、基于自然語言的部件描述、提升姿態關注度的人體掩碼三類結構化信息。為更好地發揮多模態條件的引導作用,團隊設計了多模態表征—姿態交互機制,實現引導信號與生成過程之間的深度交互,從而提升模型在姿態建模上的感知能力與生成質量。在Human3.6M和MPI-INF-3DHP等基準集上的測試表明,MMCPose取得了領先性能,特別是在Human3.6M上,將平均誤差降至30.8毫米。該方法說明,多模態引導及人體先驗知識對解決三維人體視覺感知任務具有關鍵作用。
研究工作得到科技創新2030重大項目、上海市自然科學基金等的支持。
在Human3.6M數據集上,MMCPose達到了最優性能
本文鏈接:視覺人體姿態估計研究取得進展http://www.sq15.cn/show-12-2087-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 快速射電暴高頻觀測研究獲進展
下一篇: 硫酸鹽深紫外雙折射晶體研究取得進展