萬圣節(jié)前夜,硅谷把“AI能替人類打工”的幻想拖進(jìn)現(xiàn)實(shí)揍了一頓。
Scale AI讓GPT-5、Claude、Gemini等一批“學(xué)霸”模型去“打零工”。不是做選擇題,也不是寫論文,而是獨(dú)立登錄自由職業(yè)平臺(tái)接真實(shí)訂單。客戶付真錢,模型交真貨。
這場測試被命名為“遠(yuǎn)程勞動(dòng)指數(shù)”,是全球首個(gè)專門衡量AI“能否真正干活”的基準(zhǔn)。
實(shí)驗(yàn)結(jié)果像一場職場鬧劇:每個(gè)模型有忙前忙后,表現(xiàn)最好的那個(gè),240個(gè)工單也只完成了6個(gè),賺到1720美元,還不到人類自由職業(yè)者報(bào)酬均值的2%。
近一半的失敗原因是,質(zhì)量太差、成品業(yè)余。
在“分?jǐn)?shù)上天、交付落地”的AI時(shí)代,這是一次令人尷尬的對(duì)照實(shí)驗(yàn)。盡管大模型在標(biāo)準(zhǔn)測試中表現(xiàn)驚人,但將這種“智力”轉(zhuǎn)化為現(xiàn)實(shí)世界中的“經(jīng)濟(jì)價(jià)值”的能力還非常初級(jí)。
它也提出了一個(gè)比“AI是否聰明”更現(xiàn)實(shí)的問題,當(dāng)真正要為結(jié)果付錢時(shí),人們到底愿不愿意雇用AI?目前來看,人機(jī)協(xié)作仍然是短期到中期的唯一路徑。
01讓大模型去賺外快,僅2.5%成功率
AI到底能不能自己幫我賺外快?
Scale AI的前CEO Alexandr Wang最近帶頭搞了場“AI打工實(shí)錄”,給出這樣的答案:極少數(shù)、且限制重重。
為了搞清楚這件事,Scale AI搞了個(gè)叫“遠(yuǎn)程勞動(dòng)指數(shù)”(RLI)的新標(biāo)準(zhǔn),直接把各大模型當(dāng)成“打工人”扔進(jìn)真實(shí)項(xiàng)目里接單。
評(píng)判標(biāo)準(zhǔn)很現(xiàn)實(shí):客戶肯不肯付錢,平臺(tái)認(rèn)不認(rèn)為這活兒干得專業(yè)。
他們特意選了自由職業(yè)項(xiàng)目來測試,因?yàn)檫@類任務(wù)獨(dú)立、完整、還帶真實(shí)報(bào)酬,最能看出AI到底有沒有“獨(dú)自上班”的能力。
測試范圍不包括需要持續(xù)溝通、團(tuán)隊(duì)合作或線下動(dòng)手的活兒,主要覆蓋寫作、3D建模、視頻動(dòng)畫、建筑設(shè)計(jì)、游戲開發(fā)等23類常見線上工作。
RLI的設(shè)計(jì)核心就倆字:真實(shí)。
所有測試項(xiàng)目都來自全球最大自由職業(yè)平臺(tái)Upwork上的真實(shí)訂單,一共240個(gè),加起來相當(dāng)于人類6000小時(shí)的工作量,總報(bào)酬高達(dá)14.4萬美元。
每個(gè)任務(wù)都配備了完整的需求說明、相關(guān)素材和人類交付樣例。比如,做數(shù)據(jù)報(bào)告任務(wù),要求AI根據(jù)《世界幸福報(bào)告》的Excel數(shù)據(jù),做出帶世界地圖和分?jǐn)?shù)拆分的交互式報(bào)告。

▲交付要求示例
整個(gè)流程高度仿真:從理解需求、下載文件、多輪修改到最終提交,任何一個(gè)環(huán)節(jié)掉鏈子都算任務(wù)失敗。
結(jié)果嘛,有點(diǎn)慘烈。所有參與測試的AI模型,對(duì)復(fù)雜項(xiàng)目的整體自動(dòng)化率,都低于3%。
表現(xiàn)最好的Manus,成功率也只有2.5%,也就是240個(gè)任務(wù)里只完成了6個(gè)。換算成報(bào)酬,它只賺到了1720美元,而人類完成所有這些任務(wù)可以賺到14.4萬美元。
其他“學(xué)霸”模型更拉胯:Grok 4和Claude Sonnet 4.5稍遜于第一名,均為2.1%;GPT-5為1.7%;ChatGPT Agent為1.3%;而Gemini 2.5 Pro墊底,只有0.8%。

▲AI的任務(wù)通過率統(tǒng)統(tǒng)不超過3%
目前來看,指望AI完全自主干活,效率實(shí)在有點(diǎn)低。研究團(tuán)隊(duì)發(fā)現(xiàn),AI的失敗不是隨機(jī)的,主要集中在這四類情況,且一個(gè)任務(wù)能踩好幾個(gè)坑:
①45.6%的任務(wù)“質(zhì)量過低”,成品顯業(yè)余,達(dá)不到專業(yè)標(biāo)準(zhǔn);
②35.7%的任務(wù)“不完整或格式錯(cuò)誤”,如視頻被截?cái)唷⑽募笔В?span style="display:none">cmq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM
③17.6%的任務(wù)“技術(shù)與文件完整性問題”,如損壞、編碼錯(cuò)誤;
④14.8%的任務(wù)“嚴(yán)重的視覺或邏輯不一致”,例如多鏡頭視角對(duì)不上、文件間彼此矛盾。
典型案例如:在一個(gè)珠寶設(shè)計(jì)項(xiàng)目中,AI的任務(wù)是“修改提供的戒指圖像,改變鉆石切工”。結(jié)果它完全無視客戶提供的原圖,自己放飛生成了兩張全新的AI圖,圖片質(zhì)量業(yè)余、沒按需求來、兩張新圖還對(duì)不上,一口氣觸發(fā)了三種失敗模式。

▲AI被“退貨”的典型案例
失敗原因指向更深的系統(tǒng)性問題。
“質(zhì)量低下”說明AI根本不懂什么叫“專業(yè)標(biāo)準(zhǔn)”;“不完整/格式錯(cuò)誤”則暴露了它在處理多步驟、多工具工作流時(shí)有多么脆弱。
不過AI也不是一無是處,它在某些特定類型任務(wù)上還是有點(diǎn)天賦的,主要集中在兩類:一是創(chuàng)意類任務(wù),比如制作音效、設(shè)計(jì)Logo;二是基礎(chǔ)內(nèi)容類任務(wù),比如部分?jǐn)?shù)據(jù)整理或?qū)懽鳌?span style="display:none">cmq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM
簡單來說,AI擅長“從零開始搞創(chuàng)作”,生成能力不錯(cuò)。可一旦任務(wù)需要它串起多個(gè)工具、執(zhí)行多步驟操作、保持文件間的一致性,或者在別人成果上做二次編輯,它基本就手忙腳亂,集體翻車。
雖然AI出活速度快,但交付質(zhì)量實(shí)在難以達(dá)標(biāo)。人類完成一個(gè)項(xiàng)目平均要28.9小時(shí),而AI投入相近的“算力時(shí)間”后,大部分成果還是被判定為“不合格”。
這其實(shí)說明了一個(gè)趨勢:工作正在被“拆解”,而不是直接被“替代”。
在RLI中,任務(wù)被分為L1到L5五個(gè)難度等級(jí)。像資料整理、基礎(chǔ)文案這類L1-L2任務(wù),AI通過率能達(dá)到25%-30%;而涉及跨工具協(xié)作、創(chuàng)意策劃的L4-L5任務(wù),通過率卻低于5%。有意思的是,L1-L2任務(wù)正是很多人類初級(jí)崗位的日常。
按照“智能體摩爾定律”,有人預(yù)測到明年底,最強(qiáng)的AI智能體有望完成一半的遠(yuǎn)程工作任務(wù)。
研究團(tuán)隊(duì)也強(qiáng)調(diào),AI的各項(xiàng)指標(biāo)還在快速進(jìn)步,RLI基準(zhǔn)也會(huì)持續(xù)追蹤。他們計(jì)劃不斷更新測試任務(wù)庫,并加入多模態(tài)、長記憶、工具調(diào)用等新維度,目標(biāo)很明確:把“模型能力”真正轉(zhuǎn)化為“經(jīng)濟(jì)價(jià)值”來衡量。
02舊基準(zhǔn)失靈,“滿分”模型變“掉鏈子同事”
AI正在考試中證明“聰明”,卻在職場中暴露“不會(huì)干活”。
近兩年,大模型在封閉題庫中的分?jǐn)?shù)飆升,GDP-eval、SWE-bench等評(píng)測接連被刷到滿分。而另一邊,企業(yè)的初級(jí)崗位招聘卻在降溫。AI的“考試成績”與真實(shí)就業(yè)市場的表現(xiàn),首次出現(xiàn)了明顯背離。
原因很簡單:現(xiàn)有基準(zhǔn)測的是“答題能力”,而企業(yè)要的是“交付成果”。
微軟CEO Satya Nadella曾公開吐槽:“我們自詡達(dá)到AGI里程碑,不過是基準(zhǔn)測試作弊。”
這正是典型的“高分低能”。模型選擇題全對(duì),寫代碼卻漏了import;推理論證嚴(yán)密,做方案卻缺了關(guān)鍵信息。更嚴(yán)重的是,為了“刷榜”,不少模型訓(xùn)練時(shí)已將測試集“腌”進(jìn)參數(shù)里,分?jǐn)?shù)越高,離現(xiàn)實(shí)越遠(yuǎn)。
AI領(lǐng)域迫切需要一種能衡量“真實(shí)工作能力”的新標(biāo)準(zhǔn)。
Scale AI推出的RLI正是為此而生。它不考一題一答的知識(shí)點(diǎn),而是考“能否完成一整個(gè)工作流”——就像現(xiàn)實(shí)職場那樣,任務(wù)有上下文、要協(xié)作、要產(chǎn)出可交付成果。
那么,RLI和傳統(tǒng)基準(zhǔn)有何不同?
MMLU、MT-Bench和ARC Challenge都是當(dāng)前評(píng)估大模型時(shí)“出場率”最高的主流基準(zhǔn)之一,幾乎所有新模型發(fā)布都會(huì)貼出這三項(xiàng)分?jǐn)?shù)。不過,它們各自存在明顯短板:
MMLU覆蓋57學(xué)科,更像閉卷知識(shí)競賽;
MT-Bench用兩輪對(duì)話給分,只能反映“聊天體感”,無法衡量跨工具、跨步驟的復(fù)雜協(xié)作;
ARC Challenge聚焦抽象常識(shí)推理,與現(xiàn)實(shí)場景脫節(jié)。
相比之下,RLI用真實(shí)付費(fèi)訂單作為測試題目。模型不僅要理解任務(wù)、跨工具操作,還要交出客戶愿意付錢的成果。這樣的評(píng)測幾乎無法“刷分”,它考驗(yàn)的是全流程適應(yīng)力。
現(xiàn)實(shí)中,甲方突然要求改語氣、換配圖風(fēng)格;客戶上傳的參考資料缺頁、壓縮包損壞;或任務(wù)中途新增“請(qǐng)?jiān)贜otion里同步進(jìn)度并生成演示稿”。這些人類面對(duì)的模糊又多變的現(xiàn)實(shí),是模型能力測試中不曾出現(xiàn)過的。
正如AI安全研究員Dan Hendrycks所說:“沒有什么比現(xiàn)實(shí)更復(fù)雜。AI的進(jìn)步,必須以真實(shí)經(jīng)濟(jì)價(jià)值為衡量標(biāo)準(zhǔn)。”
那AI到底能不能獨(dú)立上崗?
RLI實(shí)驗(yàn)結(jié)果顯然說明“AI絕對(duì)自動(dòng)化率幾乎為零”,AI即將全面替代人類工作”的擔(dān)憂暫時(shí)缺乏數(shù)據(jù)支撐。
短期內(nèi),市場還不會(huì)被“AI勞動(dòng)力”淹沒,但任務(wù)顆粒度變細(xì)、價(jià)格分層已在所難免。哈佛分析了500萬家美國企業(yè)的招聘數(shù)據(jù)后得出,AI引入后,初級(jí)崗位招聘量平均下降7.7%,尤其集中在批發(fā)零售、行政支持等流程標(biāo)準(zhǔn)化行業(yè)。
未來的初級(jí)崗位JD可能會(huì)寫成這樣:“能使用AI完成30%的日常雜務(wù),并具備確保交付的能力。”
AI的崛起正在重塑工作結(jié)構(gòu)。純執(zhí)行型技能正在加速貶值,定義問題、管理流程、整合資源的能力,反而成了新的核心競爭力。
AI在考試中證明了“聰明”,而真正能在現(xiàn)實(shí)中“干活”的,依然是那些懂得如何讓AI變成團(tuán)隊(duì)一部分的人。
本文鏈接:AI真的能干活嗎?硅谷用一場真實(shí)打工實(shí)驗(yàn),給出了尷尬的答案http://www.sq15.cn/show-3-158156-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。