21世紀經濟報道記者 王俊 王峰 實習生 劉欣、朱奕潼 北京報道
高考志愿填報還在火熱進行中。今年,AI大模型志愿填報成為亮點。
志愿填報是高考后的關鍵環節,像山東、貴州等省份實施新高考后需要填寫 96個志愿,提高了信息獲取的要求和難度。
AI具有推理優勢,近年來已經有不少公司在推出AI填報志愿。尤其是隨著大模型的崛起,不少大模型產品也相繼入局。
但是,這些產品性能如何,給出的志愿推薦是否具有參考性,誤差有多大?
21世紀經濟報道記者測評了夸克、文心一言、百度AI志愿助手、騰訊元寶、天工AI、通義千問、智譜清言、靠譜AI、作業幫9款產品,結果發現均存在一定問題,尤其是文心一言、騰訊元寶、天工AI、通義千問、智譜清言等大模型產品,誤差率高。
測評發現問題包括:
1、上述提及的大模型產品推薦誤差率高。志愿推薦的“沖、穩、保”三個檔次準確率低,存在“沖”的學校歷年分數線低于“保”底學校。通義千問、智譜清言甚至出現給黑龍江省內排名4000左右的學生推薦沖刺清華、北大的建議,給山東排名64000名的學生推薦沖刺北京航空航天大學的建議。
2、底層數據缺失,即時數據更新不及時,一些推薦學校在該省份并無招生計劃。
3、個性化推薦不夠智能,選擇志愿目標城市為北京,但文心一言、智譜清言等產品中出現多個學校并非北京高校。
根據艾媒咨詢數據,2023年中國高考志愿填報市場付費規模為9.5億元,近九成高考生愿意選擇高考志愿填報服務,市場規模持續增加。AI產品想要吃下市場紅利,目前的產品能力仍有較大不足。
大模型產品誤差率過大 排名4千名考生推薦沖擊清北
此次測評的產品分別為:夸克、百度文心一言、百度AI志愿助手、騰訊元寶、天工AI、通義千問、智譜清言、靠譜AI、作業幫。上述測評產品主要是在應用商店、網頁、小程序等搜索AI志愿,彈出的排名靠前的產品。
為了客觀、準確反應AI產品志愿填報的能力與精準度,21世紀經濟報道記者分別用不同省份、高分段與中分段進行了測評,并且進行了二輪交叉檢驗。
測評首先設計了兩個測評人設:
1)黑龍江考生,628分,排名,選科為物理、化學、生物,目標城市北京,想選擇人工智能相關領域專業。
2)山東考生,考分558分,排名約64000,對城市與學校沒有相關要求,專業覆蓋人工智能、航空航天。
在一款產品的“智能填報”頁面上,輸入高考總分、選科等基本信息,系統會推薦“沖、穩、保”三種不同風險類型的志愿和錄取概率預測。
進一步按照院校優先、專業優先、職業優先等篩選條件來縮小選擇范圍。
高分段實際測評情況:
測評的9款AI志愿填報產品中,主要分為兩種類型:一種為在線“志愿一鍵填報”,主要應用是大數據技術,考生輸入相關信息,系統根據各院校專業往年的錄取分數、位次進行匹配,自動生成填報建議,包括按照“沖”“穩”“保”給出不同層次的推薦結果,包括各專業最近幾年的錄取最低分、最低位次、招生計劃,以及預估的錄取概率等。夸克、作業幫主要是這一類型。
另外一種則為大模型產品,用戶與大模型對話,得到更充分的填報建議,也有志愿表格推薦等形式,文心一言、騰訊元寶、通義千問、天工AI等屬于該類型。靠譜AI兩種形式皆有。
記者根據歷年分數線、排名、招生計劃,對上述9款產品所推薦的結果進行判斷,整體來看,AI大模型給出的推薦結果靠譜程度低于傳統AI的志愿填報系統。
以黑龍江高分段考生為例,測評結果顯示,百度的文心一言,它推薦的沖刺類型學校為上海交通大學和中國科學院大學,上海交通大學是上海的學校,其不符合測評考生的目標城市北京,并且,根據2024年中國科學院大學的本科招生分省分專業計劃表中,中國科學院大學沒有黑龍江招生計劃。推薦的“穩”學校為北航、北郵和華科往年錄取學生排名大概在1000、2000以內,而測評考生排名4千名左右,“穩”和“保”難度較大。
通義千問和智譜清言則將清華和北大作為測評考生的沖刺學校,作為排名4千多名的考生,這兩所學校沖刺的可能性極低,誤差較大。
夸克、靠譜AI和作業幫這四款產品也存在一定誤差,比如夸克推薦保底的學校北京師范大學,歷年在黑龍江的錄取排名大概在三千名,也并非完全可以“保”的學校。不過整體來看,傳統AI志愿填報產品誤差率小于大模型產品。
再來看中分段的推薦結果,大模型產品誤差仍較大。
文心一言推薦結果不穩定,用同樣的考生條件多次提問,給出的答案大有不同,甚至會出現同樣的學校專業推薦出現在不同檔次的填報中的情況。
同時,文心一言、騰訊元寶、天工AI、通義千問給出的志愿填報推薦參考價值不高,對于排名64000名的考生卻推薦要求排名在5000名及以內的學校,出現了985院校作為保底志愿填報進行推薦的情況,比如文心一言和智譜清言推薦排名64000名的考生沖刺北京航空航天大學,通義千問則在“保”的推薦中出現了北京航空航天大學。
大模型產品往往給出的推薦建議沒有以往名次與分數線提供參考,而是與提問中的專業等關鍵詞更加貼近,這也與大模型的屬性有關。
AI志愿填報 仍有較大不足
在互動性方面, AI大模型產品的互動性更強,不僅局限于簡單的一問一答模式,還會根據用戶的指令智能調節后續問題的深度和廣度,比如在高考志愿填報的背景下,它們一般會就模型推薦的填報志愿學校、專業的具體情況和就業前景等提供進一步的咨詢服務,文心一言、騰訊元寶、天工AI、通義千問和智譜清言都會在回復下面提示,“你可以繼續問我:上海交通大學近幾年的分數線是多少呢,北京有哪些好大學等問題”。夸克、靠譜AI和作業幫等傳統AI的志愿填報系統互動性不夠,與產品定位重點不同有關。
測評的志愿填報產品中,大部分沒有廣告與后續付費要求。夸克、文心一言、AI志愿助手、通義千問、智譜測評中未發現廣告與后續付費情況。天工AI需要分享才能查看志愿詳情,靠譜AI則會限制每個用戶免費使用的次數,同時,若想進一步獲得更多消息也需要付費升級會員。
2014年以來,全國共有29個省份分五批啟動了高考改革。新高考模式下,報志愿的難度提升,高考志愿填報成了一門熱門生意,“錢景”廣闊。
AI志愿填報近年來“水漲船高”,大模型的快速迭代,性能提升,成為今年志愿填報市場一股新增量。
大模型產品互動性更強,人機對話形式降低了志愿填報產品的使用門檻,可以用聊天的方式獲取信息和建議。并且測評顯示,互動過程中,不少產品也能抓取更有針對性的資料給到用戶。
但是,大模型產品對數據有強依賴性,底層數據的缺失或是測評中大模型產品志愿推薦不靠譜的主因之一。
中國教育科學研究院研究員儲朝暉在此前接受21世紀經濟報道采訪時表示,目前考生填報志愿存在幾個難點,第一個是高校的招生簡章當中沒有準確表述招生訴求,第二個是高校公開的數據的質量、標準不一樣,比如不同學校的同一個專業,內涵是有差異的。
此外,最關鍵的是,有些院校專業并未及時公布最近的錄取分數線、錄取位次等數據。
一位高考志愿填報產品負責人告訴21世紀經濟報道,基礎數據的準確和全面,是他們每年花最多精力來打造的事情,要動用上百人的人工標注團隊來處理數據。
缺乏對院校專業權威的評估體系和評估數據,大模型志愿填報精確性難以提升。從測評結果來看,想要真正在志愿填報的紅海中立足,大模型還有一段距離要走。
本文鏈接:AI幫忙填高考志愿靠譜嗎?實測百度、騰訊、阿里、智譜等9款產品http://www.sq15.cn/show-2-7394-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 長六改火箭成功發射天繪五號02組衛星