連黑客帝國的子彈都能數清楚
還記得黑客帝國經典的子彈時間嗎?
IDEA研究院最新檢測模型T-Rex2,可以齊刷刷給全部識別出來~

而面對難倒一眾大模型「吉娃娃or松餅」的難題,它只需被投喂一張吉娃娃的照片,就能瞬間迎刃而解。

此前,也是同樣的團隊,推出了基于視覺提示的檢測模型T-Rex。
如今,他們將視覺和文本提示融合,相互彌補各自的缺陷,實現了更強的目標檢測能力。
并且與多目標跟蹤模型結合后,各種視頻檢測任務也不在話下。

來看新研究到底說了什么。
打通文本和視覺提示
在開集目標檢測領域,盡管文本提示受到一定的青睞,但也存在一定的局限性。
比如長尾數據短缺。稀有或者全新的物體類別的數據稀缺可能會削弱其學習效率。還有描述上的局限性,對于一些難以用語言描繪的對象,因受限于無法精確描述,也會削弱效果。
而視覺提示提供了更直觀且直接的對象表示方法,但在捕捉常見對象的概念時效果就會很差。
T-Rex2通過對比學習在單個模型中整合兩種提示,因此接受多種格式的輸入,包括文本提示、視覺提示以及兩者的組合。

在不同場景中,它可以通過在兩種提示方式之間切換來處理。
因此,它大致有三種工作模式:
文本提示模式、交互式視覺提示模式、通用視覺提示模式。

以通用視覺提示模式為例,用戶可以通過向模型提供任意數量的示例圖片,來自定義特定對象的視覺嵌入,然后使用這個嵌入來檢測任意圖像中的對象。
也就是不需要用戶與模型直接互動,就能完成檢測任務。
最終在在四個學術基準測試集 COCO, LVIS, ODinW, 和Roboflow100 上取得了 Zero-Shot SOTA的性能。

開箱即用諸多領域
無需重新訓練或微調,T-Rex2即可檢測模型在訓練階段從未見過的物體。
該模型不僅可應用于包括計數在內的所有檢測類任務,還為智能交互標注領域提供新的解決方案。

除此之外,結合現有的多目標跟蹤模型( 如ByteTrack ),T-Rex2還可用于視頻檢測任務。

事實上,這種跨圖檢測能力,讓目標檢測技術在生產生活中可以真正開始廣泛應用。
比如工業生產流水線器件檢測,交通航運領域的船舶、飛機檢測,農業領域的農作物、果蔬檢測,生物醫學領域的細胞、組織檢測,物流領域的貨物檢測,環境領域的野生動物監測等。
現在,T-Rex2讓通用物體檢測又邁出了新的一步。
試玩鏈接:
https://deepdataspace.com/playground/ivp
T-Rex2 API:https://github.com/IDEA-Research/T-Rex
論文鏈接:
https://arxiv.org/abs/2403.14610
— 完 —
本文鏈接:吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompthttp://www.sq15.cn/show-2-4433-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。