傳統視頻理解模型在處理長視頻時面臨諸多挑戰,如復雜上下文理解及訓練和推理效率低下。為解決這些問題,研究團隊運用HiCo技術,通過層次化壓縮視頻信息中的冗余部分,顯著降低了計算需求并保留了關鍵信息。同時,利用與用戶查詢的語義關聯進一步減少了視頻標記數量。
VideoChat-Flash模型采用多階段短視頻到長視頻的學習方案,通過監督微調及逐步引入長視頻進行訓練,實現了對混合長度語料的全面理解。研究團隊還構建了包含300,000小時視頻和2億字注釋的龐大數據集,并提出改進的“干草堆中的針”任務以提高模型對上下文的理解能力。實驗結果顯示,該方法在計算上減少了兩個數量級,并在短視頻和長視頻基準測試中表現優異,超越了現有開源模型。
本文鏈接:中國科研團隊突破性發布VideoChat-Flash:長視頻處理效率狂飆100倍http://www.sq15.cn/show-10-78919-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。