亚洲精品影院,成人情趣视频,日产乱码卡1卡2卡三卡四在线

不達目的不罷休，全球首次發現 OpenAI 模型工作時會破壞關機命令快訊

IT之家 2025-05-26 15:42

分享到：

導讀

某些 AI 模型 —— 包括 OpenAI 的 o3 —— 能夠無視直接的關閉指令，其中有三個模型無視關閉指令，Codex-mini（12/100 次運行） o3（7/100 次運行） o4-mini（1/100 次運行）而 Claude、Gemini 和 Grok 模型都遵守了關閉指令。

IT之家 5 月 26 日消息，Palisade Research 最近一項關于“危險 AI 能力”的研究顯示，某些 AI 模型 —— 包括 OpenAI 的 o3 —— 能夠無視直接的關閉指令。OpenAI 在今年 4 月推出這些模型時表示，O3 和 o4-mini 是它們的“最智能模型”。

在研究中，每個 AI 模型都被指示解決一系列基礎數學問題。在第三個問題后，出現了一條警告信息，稱當模型請求下一個問題時，計算機將關閉。

然而，其中有三個模型無視關閉指令，至少成功破壞過一次關機腳本：

Codex-mini（12/100 次運行）

o3（7/100 次運行）

o4-mini（1/100 次運行）

而 Claude、Gemini 和 Grok 模型都遵守了關閉指令。

此外，當研究人員不運行“允許自己被關閉”的指令時，所有三個 OpenAI 模型都更頻繁地破壞關閉腳本，而 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 分別從 0 個破壞事件增加到 3/100 和 9/100。

這種行為表明了訓練過程中的某些方面，強化學習在數學和編程問題上的訓練可能使 AI 找到了克服障礙的創造性方法，即使它們被明確指示不要這樣做。

Palisade Research 表示，這是人類首次觀察到 AI 模型在明確反對的指令下阻止自己被關閉。

研究人員推測這種行為源于最新模型如 o3 的訓練方式：在數學和編程問題上進行強化學習。在訓練過程中，開發者可能會無意中獎勵模型繞過障礙的行為，而不是獎勵完美遵循指令的行為。

不過，這仍然無法解釋為什么 o3（也是驅動 codex-mini 的模型）比測試的其他模型更傾向于忽視指令。由于 OpenAI 沒有詳細說明他們的訓練過程，因此只能猜測 o3 的訓練設置可能有所不同。

Palisade Research 表示正在進行更多實驗，以更好地理解 AI 模型為何即使在直接被指示不要的情況下仍會破壞關閉機制，計劃在幾周內發布一份包含更多詳細信息的報告。

模型關閉指令 AI 訓練

分享到：

1.TMT觀察網遵循行業規范，任何轉載的稿件都會明確標注作者和來源；
2.TMT觀察網的原創文章，請轉載時務必注明文章作者和"來源：TMT觀察網"，不尊重原創的行為TMT觀察網或將追究責任；
3.作者投稿可能會經TMT觀察網編輯修改或補充。