公司動(dòng)態(tài)

幻覺(jué)捕手：這更像是一門(mén)“玄學(xué)”

2025年5月15日，玄學(xué)中國(guó)信息通信研究院人工智能研究所公布了大模型幻覺(jué)測(cè)試的幻覺(jué)第一期結(jié)果：包括DeepSeek R1在內(nèi)的15個(gè)主流模型，無(wú)一例外都存在不同程度的捕手“幻覺(jué)”。

“幻覺(jué)”一詞源于生物學(xué)，更像運(yùn)用在人工智能領(lǐng)域，玄學(xué)始于谷歌2017年的幻覺(jué)一項(xiàng)研究。當(dāng)時(shí)研究員們模仿人類的捕手神經(jīng)網(wǎng)絡(luò)，設(shè)計(jì)了一個(gè)機(jī)器翻譯系統(tǒng)。更像

結(jié)果發(fā)現(xiàn)這個(gè)網(wǎng)絡(luò)翻譯系統(tǒng)哪怕“不會(huì)”，玄學(xué)仍能輸出一段流暢的幻覺(jué)內(nèi)容。過(guò)去，捕手谷歌傳統(tǒng)的更像翻譯系統(tǒng)遇到不會(huì)的單詞，很多時(shí)候會(huì)保留原文。玄學(xué)于是幻覺(jué)，研究人員把神經(jīng)翻譯系統(tǒng)這種更有“迷惑性”的捕手錯(cuò)誤命名為“幻覺(jué)”。

一個(gè)著名的幻覺(jué)案例是，2024年7月，Scale AI的高級(jí)提示工程師萊利·古德賽德向當(dāng)時(shí)世界最強(qiáng)三大模型（GPT-4o、Gemini Advanced、Claude 3.5 Sonnet）詢問(wèn)，“9.11和9.9哪個(gè)更大？”它們異口同聲回答：“9.11更大。”

ChatGPT并非全球首個(gè)大模型，Meta和谷歌此前也推出過(guò)類似產(chǎn)品。其中，Meta的Galactica AI因幻覺(jué)嚴(yán)重，上線僅三天便被撤回。

ChatGPT之所以被視為劃時(shí)代產(chǎn)品，正是因其首次將幻覺(jué)率壓低到可接受范圍。從ChatGPT-3.5到o3，兩年來(lái)模型性能持續(xù)提升，人們逐漸形成一種假設(shè)：模型越聰明，越不會(huì)出錯(cuò)。

直到2025年4月，OpenAI在一篇論文中潑了冷水：在其內(nèi)部測(cè)試中，最新的推理模型o3比前一代推理模型o1的幻覺(jué)率更高。

這一反直覺(jué)的發(fā)現(xiàn)令整個(gè)行業(yè)都神經(jīng)緊張，如果智能提升的同時(shí)，也增強(qiáng)了“偽裝錯(cuò)誤”的能力，那更聰明的推理大模型帶來(lái)的不是更高的可靠性，而是更難察覺(jué)的風(fēng)險(xiǎn)。

不過(guò)，中國(guó)信息通信研究院剛剛出爐的這份測(cè)評(píng)結(jié)果，讓業(yè)界可以稍感安慰。他們的結(jié)果顯示，推理模型相對(duì)于通用模型，幻覺(jué)問(wèn)題更輕。這說(shuō)明推理過(guò)程一定程度上有助于緩解幻覺(jué)。

那么，這些測(cè)評(píng)結(jié)果究竟能說(shuō)明什么？更聰明的模型，真的更會(huì)“說(shuō)謊”嗎？人類能不能徹底消滅“幻覺(jué)”？

一次次測(cè)試中，黑一鳴偶爾會(huì)陷入一個(gè)哲學(xué)思考，“子非魚(yú)，焉知魚(yú)之樂(lè)也？”視覺(jué)中國(guó) 圖

幻覺(jué)捕手

2025年春節(jié)，中國(guó)信息通信研究院人工智能研究所的研究員黑一鳴整個(gè)假期都泡在論文堆里，為了尋找捕捉這種“大模型幻覺(jué)”的方法。

黑一鳴身高接近1.9米，2023年博士畢業(yè)。那是他讀博的最后一年，大模型時(shí)代突如其來(lái)，打亂了所有人的節(jié)奏，“我這一屆還好，下一屆的學(xué)弟學(xué)妹，如果畢業(yè)論文里沒(méi)大模型，會(huì)被認(rèn)為沒(méi)有跟進(jìn)最新研究，被質(zhì)疑創(chuàng)新性。”

原本專攻網(wǎng)絡(luò)內(nèi)容安全的黑一鳴，也在畢業(yè)后轉(zhuǎn)向大模型研究，加入中國(guó)信息通信研究院人工智能研究所，成為一名研究員。當(dāng)時(shí)，國(guó)內(nèi)大模型紛紛要進(jìn)行安全備案，研究所為各大模型企業(yè)提供安全測(cè)評(píng)，重點(diǎn)評(píng)估輸出內(nèi)容的合規(guī)性與越獄攻擊等風(fēng)險(xiǎn)。黑一鳴最初負(fù)責(zé)的，正是這項(xiàng)安全測(cè)評(píng)工作。

隨著行業(yè)從“百模大戰(zhàn)”走向大模型在真實(shí)業(yè)務(wù)中的落地，關(guān)注的焦點(diǎn)也悄然轉(zhuǎn)移。黑一鳴感覺(jué)到，過(guò)去一年，來(lái)自金融、醫(yī)療、法律等高風(fēng)險(xiǎn)行業(yè)的咨詢明顯增加。

這些領(lǐng)域容錯(cuò)率極低，對(duì)潛在風(fēng)險(xiǎn)格外敏感。“比如銀行的客戶服務(wù)機(jī)器人，跟客戶交流時(shí)，它輸出的內(nèi)容會(huì)不會(huì)違背既有政策，大家特別擔(dān)心。”

一個(gè)最新的例子來(lái)自全球知名的人工智能編程軟件公司 Cursor。作為目前最成功的大模型應(yīng)用之一，它已將客服業(yè)務(wù)完全交由AI處

上一篇：鄭州機(jī)場(chǎng)啟動(dòng)掃碼繳納行郵稅下一篇：雅戈?duì)?4億收購(gòu)阿里銀泰，加速線下商業(yè)渠道布局

欄目導(dǎo)航

新聞資訊

聯(lián)系我們

電話：400-123-4567

傳真：+86-123-4567

手機(jī)：13800000000

郵箱：admin@qq.com

地址：廣東省廣州市天河區(qū)88號(hào)

日韩国产精品免费专区-日韩国产精品欧美-日韩国产精品区-日韩国产精品视频-日韩国产精品视频在放-日韩国产精品天天更新-日韩国产精品亚洲-日韩国产精品一