2025年只剩最后42天,一個被行業統稱為物理世界最強的AI發布了。北京時間昨夜凌晨,Gemini 3 Pro 預覽版正式發布,API 同步開放。
被稱為最強,是因為它不僅在所有主要 Arena 排行榜中幾乎全部排名第一,且評分斷層,就連最大競爭對手OpenAI CEO 奧特曼也罕見地發文稱“看起來很不錯”,馬斯克跟著評論稱“做的不錯”。
當天,還是微軟的Ignite 2025大會開幕,微軟發布了 Edge for Business 瀏覽器的一系列重大更新,似有隔空對壘之意。
也有人評價稱,這是谷歌對OpenAI最猛烈的一場打擊,業內聲音認為,Gemini3直擊了GPT5的性能高地,甚至是實現了GPT5.1沒能實現的效果。
業內感嘆:跑分“斷層領先”?
在 AI 圈子里,大家習慣了模型之間你追我趕的微弱優勢,但 Gemini 3 Pro 拋出的這份成績單,可以說一定程度上拉開了性能差距。
如果只看跑分,Gemini 3 Pro幾乎實現了“斷層領先”。除了在軟件工程能力上略遜于GPT-5.1和Claude Sonnet 4.5,其他指標,尤其是推理、多模態和Agent工具使用等關鍵基準上,都實現了全方位的霸榜。

在代表人類智力“天花板”的Humanity's Last Exam中,當GPT-5.1還在26.5%徘徊時,Gemini 3 Pro直接跑出了37.5%的高分。更令人震驚的是,其“深度思考模式”(Deep Think)在不使用任何工具的情況下,得分進一步飆升至41.0%。
在數理方面,Gemini 3 Pro更是展現了統治力。AIME 2025(美國數學邀請賽)配合代碼執行,準確率達到驚人的100%。而在代表數學極限的 MathArena Apex 測試里,當其他頂尖模型還在個位數或者 10% 左右掙扎時,Gemini 3 Pro 直接跑出了 23.4% 的分數。這意味著在許多AI曾“看不懂題”的領域,它已經開始攻城略地。
但這些數據,并不是這一夜最讓科技圈震動的理由。Gemini 3 Pro 展現出了一種前所未有的體驗,它不僅僅是在寫代碼,它是在搞創作。
在此之前,我們評價一個 AI 的編程能力,看的是它邏輯對不對、Bug 多不多。但 Gemini 3 Pro 突破了這個維度。當用戶扔給它一個極其抽象的 Prompt,比如“設計一個很溫馨的場景,里面要有哆啦A夢,還有大熊,他們在一起憧憬著未來,并且我需要在瀏覽器里跑出來。”
它不再像以前那樣給用戶堆砌一堆還需要調試的半成品,短則十幾秒后,它可以直接交給用戶一個代碼 ,并且是一個可以流暢運行的代碼。
不僅如此,AI博主數字生命卡茲克還直接讓它生成了一個類似window的web os,生造一個系統。結果是,它真的生成出來了,并且還有模有樣。
這一刻,很多前端工程師可能感到了一絲寒意。Gemini 3 Pro 證明了,從今天起,前端開發中“手寫”的那部分價值正在極速歸零。技術門檻被夷為平地,取而代之的是“想象力門檻”。只要人們的 Prompt 描述得足夠有畫面感、足夠有“人味”,這個模型就能把人們的腦洞像素級地還原出來。
不過,它對于程序員來說,目前也不是萬能的。
關于之前網絡上傳的“徹底顛覆程序員”的說法,實際上,Gemini 3 Pro在AI領域處于頂尖水平,但并未實現“顛覆編程”的目標。在軟件工程能力的SWE-Bench Verified測試中,Gemini 3 Pro獲得了76.2%的成績,雖然表現出色,但仍落后于Claude Sonnet 4.5的77.2%(SOTA水平)。這表明,在處理超長、非常復雜的后端邏輯時,它依然存在一定的局限性。
當前,有不少模型都在著重比拼競爭編程能力,從海外的Claude到國內的Kimi都在主打編程。目前,Gemini更偏向于輔助設計,它不能完全實現重構整個后端架構,但如果用戶想設計一個符合現代審美的網站、或生成復雜的SVG交互動畫,它都可以通過簡單提示,提供令人驚艷、可立即運行的成果。
另一個例子也證明了,現在的AI還不足以讓我們完全信任。今天中午,據科技博主@純銀V發文稱,Gemini3 的第一個大型受害者出現了。
中招的是他一位朋友,在使用 Cursor 進行 AI 編程時,Gemini3 不知抽了什么風,直接刪掉了用戶 800G 的文件!更絕的是,連 Cursor 自己都沒能幸免,一并被“清理”出門。
目前無法手動恢復,只能找專門的數據恢復公司。
競爭還在升級
谷歌這次連開發環境都給重構了。
伴隨模型發布的,還有一個名為 Google Antigravity 的新平臺。這可能是目前市面上最接近“自動駕駛編程”的形態。它不再是一個讓人們一行行敲代碼的編輯器,而是一個“智能體優先”(Agent-first)的指揮中心。
在 Antigravity 里,用戶不是一個人在戰斗。Gemini 3 Pro 是大腦,負責頂層架構,Gemini 2.5 Computer Use 模型是手眼,負責操控瀏覽器驗證效果,Nano 模型負責打雜。用戶下達指令,它們開始分工協作:寫代碼的寫代碼,跑測試的跑測試,甚至 AI 會自己打開瀏覽器看著界面說“這里歪了”,然后自己切回終端進行修正。
這種“端到端”的工程能力,才是谷歌真正的護城河。
這也是為什么谷歌能在這個時間點炸場。當全世界的 AI 公司都在苦苦等待英偉達的 GPU 發貨時,谷歌依然坐在自家龐大的 TPU 算力礦山上。這種底層的算力冗余,加上谷歌搜索獨有的、涵蓋全網數據的知識圖譜,讓 Gemini 3 Pro 擁有了別人難以復制的“厚度”。
比如在最新的搜索模式中,當你問一個復雜的物理或生物問題,它不再是給你扔一堆鏈接,而是直接生成一個可交互的動態模擬器。這種即時生成工具的能力,是算力和數據積累到極致后的溢出表現。
目前,Gemini 月活躍用戶已超 6.5 億。在今年8月,OpenAI也宣布ChatGPT周活用戶達到了8億。
在爭奪普通消費者的賽道上,OpenAI與谷歌的廝殺還在升級。巴克萊銀行分析師羅斯·桑德勒曾依據兩大巨頭的token消耗量估算,在原生消費級AI應用方面,OpenAI的Token消耗量仍是Gemini的兩倍以上。
同在谷歌旗下,DeepMind 的CEO官德米斯?哈薩比斯(Demis Hassabis)在一份聲明中表示,由 Gemini 3 驅動的人工智能響應 “將摒棄陳詞濫調和刻意討好,提供真正有價值的見解 —— 告訴你需要知道的事,而非你想聽的話”。行業批評人士指出,當前的人工智能聊天機器人往往過于 “諂媚”。
而就在一周前,OpenAI更新GPT5.1時稱,GPT-5.1的答案讓人感覺更聰明,語氣更自然。優秀的人工智能不僅應該是聰明的,而且應該提供令人愉快的交談。
不過,在商業模式上,二者存在顯著差異,可能使其面臨的壓力不同。
多家媒體近期報道稱,一份據稱來自OpenAI內部的文件稱,OpenAI的實際運營成本可能遠超外界想象,而其收入則被顯著夸大,這使得其高昂的運營成本與收入之間存在一條驚人的鴻溝。數據顯示,從2024年第一季度到2025年第三季度的七個季度里,OpenAI僅在Azure上的推理計算支出就超過了124億美元。僅在2025年的前九個月,其推理成本就已高達86.7億美元。
10 月 29 日,谷歌母公司 Alphabet 發布截至 2025 年 9 月 30 日的第三季度財報。數據顯示,Alphabet 第三季度總營收達 1023.46 億美元,較去年同期的 882.68 億美元增長 16%,五年前,這一數字是500億美元。Alphabet CEO桑達爾?皮查伊稱,人工智能正為其創造切實價值。值得一提的是,在巴菲特發出最后一封股東信之際,伯克希爾·哈撒韋公司發布持倉報告顯示,截至今年第三季度末,該公司已建倉價值43億美元的谷歌股票,并繼續減持蘋果。這將是巴菲特在退休前的最后一場關鍵戰役,在人工智能領域,股神已做出選擇。
這意味著,擺在OpenAI面前的仍舊是一道艱難的生死題,如果不能顯著超越Gemini,ChatGPT拉開的用戶規模差距仍舊可能被追上,那對于燒錢換規模的OpenAI而言,將是毀滅性的打擊。
本文鏈接:美國AI內戰,誰焦慮了?http://www.sq15.cn/show-3-159502-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: “我所經歷的《中國風險投資史》”——新書對談回望中國創投二十年
下一篇: 雙十一,藍月亮打出“濃縮+”王炸