OpenAI最新研究揭示“AI陰謀論”,GPT-5已完成針對性改進快訊
針對 AI 模型中潛在的隱藏行為開展了評估研究,OpenAI 模型隱匿行為發(fā)生率顯著下降,包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在內(nèi)的前沿模型均表現(xiàn)出相關(guān)問題(該項研究在 GPT-5 發(fā)布前完成。
9 月 19 日消息,OpenAI 宣布與 Apollo Research 達成合作,針對 AI 模型中潛在的隱藏行為開展了評估研究,并在受控測試中發(fā)現(xiàn)了相關(guān)跡象。研究團隊同時提出并驗證了一種早期方法,用于減少這類風(fēng)險。
OpenAI 將這一行為稱為“scheming”(即“陰謀”),指 AI 表面上裝作為與人類目標立場一致,但暗地里追求的卻是其他不為人知的目的。
OpenAI 指出,這種行為可能源于 AI 在面對相互競爭的目標時出現(xiàn)的權(quán)衡。例如,一名股票交易員可能會通過撒謊并掩蓋其違法痕跡來實現(xiàn)收益最大化,而在外人看來下,這種人看似守法且業(yè)績更優(yōu)。
不過在當(dāng)前已部署的模型中,OpenAI 尚未發(fā)現(xiàn)會導(dǎo)致嚴重危害的“陰謀”行為。常見問題多為較簡單的欺騙,例如假裝完成任務(wù)卻未真正執(zhí)行。
OpenAI 稱,已在 GPT-5 訓(xùn)練中采取措施以降低欺騙和規(guī)避問題的傾向,例如在面對不合理或描述不完整的任務(wù)時,模型會坦然承認自身局限性。不過,這些改進尚不完善,相關(guān)研究仍在繼續(xù)。
研究團隊為模擬未來可能出現(xiàn)的復(fù)雜場景,建立了測試環(huán)境,并將這種“隱匿實際目的”的行為作為“陰謀”的關(guān)鍵 AI 指標。在評估中,包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在內(nèi)的前沿模型均表現(xiàn)出相關(guān)問題(該項研究在 GPT-5 發(fā)布前完成,更新結(jié)果已加入 GPT-5)。
通過合作,研究團隊在 o3 與 o4-mini 中引入“審慎對齊”(deliberative alignment)方法,即要求模型在執(zhí)行任務(wù)前閱讀并推理一份反陰謀規(guī)范。
結(jié)果顯示,OpenAI 模型隱匿行為發(fā)生率顯著下降,o3 從 13% 降至 0.4%,o4-mini 從 8.7% 降至 0.3%,縮減幅度約 30 倍;但仍存在罕見且嚴重的失敗案例,且評估可能受到模型情境感知能力增強的干擾。
OpenAI 強調(diào),目前結(jié)果依賴于對模型推理過程(即“chain-of-thought”)的可讀性與可信度。但在推理透明性受限的情況下,業(yè)界尚未做好應(yīng)對準備。OpenAI 呼吁各方在更有效的方法出現(xiàn)前,應(yīng)保持推理透明。
OpenAI 表示,這一問題對 AI 對齊構(gòu)成嚴重挑戰(zhàn),應(yīng)成為通向通用人工智能(AGI)研發(fā)的核心工作。未來,OpenAI 將繼續(xù)與 Apollo Research 合作,擴大研究團隊,開發(fā)更完善的評估工具和防范訓(xùn)練方法。同時,OpenAI 計劃推動跨機構(gòu)合作,包括試點跨實驗室安全評估,發(fā)起 50 萬美元(注:現(xiàn)匯率約合 355 萬元人民幣)的 Kaggle 對抗挑戰(zhàn)賽,以及倡導(dǎo)業(yè)界普遍保持推理透明。(問舟)
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。