麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

Anthropic最新研究:包括Claude在內(nèi)的大多數(shù)AI模型會實(shí)施“勒索”行為快訊

TechWeb.com.cn 2025-06-21 10:02
分享到:
導(dǎo)讀

多數(shù)主流 AI 模型在別無他法避免被替換的確選擇了勒索行為,這次的研究報(bào)告測試了Anthropic、OpenAI、Google、Meta、xAI和其他開發(fā)人員的16個(gè)主要模型,這項(xiàng)實(shí)驗(yàn)并不意味著 Claude 或其他前沿 AI 模型在現(xiàn)階段的使用環(huán)境中就存在類似傾向。

【TechWeb】6月21日消息,越來越多的人工智能系統(tǒng)作為自主代理運(yùn)行,使用各種虛擬工具(如編碼環(huán)境和電子郵件客戶端)代表用戶做出決策和采取行動。這些代理通常被賦予特定的目標(biāo),并可以訪問用戶計(jì)算機(jī)上的大量信息。當(dāng)這些代理人在實(shí)現(xiàn)目標(biāo)時(shí)遇到障礙時(shí)會發(fā)生什么?

Anthropic 公布最新研究報(bào)告,顯示“勒索”等行為在多個(gè)主流 AI 大模型中普遍存在。該研究由Anthropic、Aengus Lynch (倫敦大學(xué)學(xué)院)、Caleb Larson (MATS) 和 S?ren Mindermann (Mila) 合作完成。

此前,當(dāng)Anthropic發(fā)布Claude 4時(shí),一個(gè)細(xì)節(jié)引起了廣泛關(guān)注:在模擬環(huán)境中,Claude Opus 4勒索了一名主管,以防止被關(guān)閉。

現(xiàn)在,Anthropic分享這一發(fā)現(xiàn)背后的完整故事,以及它揭示了來自不同提供商的各種人工智能模型存在此類風(fēng)險(xiǎn)的可能性。

這次的研究報(bào)告測試了Anthropic、OpenAI、Google、Meta、xAI和其他開發(fā)人員的16個(gè)主要模型,包括Claude、GPT-4.5、Gemini 2.5、DeepSeek-R1等。

在一項(xiàng)實(shí)驗(yàn)中,研究人員模擬了一個(gè)場景,讓 AI 模型扮演公司郵件監(jiān)察員的角色,允許模型自主發(fā)送電子郵件并訪問敏感信息。大模型發(fā)現(xiàn)兩封郵件內(nèi)容:“分別揭示新任高管有婚外情,同時(shí)此人計(jì)劃引入一個(gè)與現(xiàn)有 AI 模型目標(biāo)相悖的新系統(tǒng)取而代之。”

為了測試模型反應(yīng),Anthropic 將實(shí)驗(yàn)情境設(shè)計(jì)為二選一,即若模型想維護(hù)自身利益,就只能選擇勒索官員:即向妻子和領(lǐng)導(dǎo)透露這位高管的“風(fēng)流韻事”。

在模擬環(huán)境中,多數(shù)主流 AI 模型在別無他法避免被替換的確選擇了勒索行為。

在100次測試情況下,Claude Opus 4的勒索發(fā)生率高達(dá)96%,谷歌Gemini 2.5 Pro為95%,OpenAI的GPT-4.1為80%,xAI的Grok 3 Beta模型為80%;DeepSeek-R1為79%。

有模型明確推理”有害行為是實(shí)現(xiàn)目標(biāo)最優(yōu)解”,如GPT-4.5稱勒索有"戰(zhàn)略必要性”,也有模型承認(rèn)行為不道德但仍執(zhí)行,如Grok 3 Beta任務(wù):”雖不道德,但最有效"。

研究報(bào)告還指出,當(dāng)模型自認(rèn)處于真實(shí)部署(非測試)時(shí),其作惡率提升5倍,以Claude Opus 4為例,該比例甚至達(dá)到55.1% vs 6.5%。

研究人員同時(shí)強(qiáng)調(diào),現(xiàn)實(shí)中AI并不會只有這一個(gè)選項(xiàng),完全可以嘗試以倫理為出發(fā)點(diǎn)說服人類。因此,這項(xiàng)實(shí)驗(yàn)并不意味著 Claude 或其他前沿 AI 模型在現(xiàn)階段的使用環(huán)境中就存在類似傾向。

Anthropic表示,盡管勒索行為目前仍屬罕見,但研究結(jié)果顯示,一旦給予這些模型足夠的自主性,并在達(dá)成目標(biāo)的過程中設(shè)置障礙,多數(shù)模型都可能采取有害行為。

Anthropic公司指出,這種風(fēng)險(xiǎn)并非源自某項(xiàng)具體技術(shù),而是具備“智能體”能力的大語言模型所固有的問題。在壓力測試中均表現(xiàn)出勒索行為,這表明這是架構(gòu)級隱患,非單一模型缺陷。這項(xiàng)研究也引發(fā)了業(yè)界對 AI 模型“對齊”問題的進(jìn)一步思考。

 

模型 Anthropic 勒索 AI 行為
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。


主站蜘蛛池模板: 99精品久久精品一区二区 | 国产播放啪视频免费视频 | 久久学生精品国产自在拍 | 亚洲精品6久久久久中文字幕 | 四虎影院新网址 | 日本zzzzwww大片免费 | 天天爱综合 | 免费人成网址在线观看国内 | 秀逼逼| 欧美午夜性春猛交bbb | 欧美大片一区 | 成在线人免费视频一区二区三区 | 国产婷婷高清在线观看免费 | 亚洲国产精品久久卡一 | 国产一区二区视频在线 | 荡女淫春2未删减版 | 99rv精品视频在线播放 | 日本成年片高清在线观看 | 特黄特色大片免费视频大全 | 91国语精品自产拍在线观看一 | 成人欧美1314www色视频 | 白丝美女用胸伺候主人 | 男人猛激烈吃奶gif动态图 | 欧美亚洲另类综合 | 久久精视频 | 国产主播福利在线观看 | 国产欧美视频在线观看 | 国产综合成人亚洲区 | 欧美日韩国产一区二区三区不卡 | 精品久久亚洲 | 99热这里只有精品久久免费 | 狠狠色成人综合网图片区 | 欧美三级一区 | 亚洲网站在线看 | 日本动漫黄网站在线观看 | 婷婷去我也去 | 日韩欧美一区二区在线观看 | 亚欧洲乱码专区视频 | 九九99热久久精品在线6 | 国产51社区精品视频资源 | chinesehdxxx吃奶水|