麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

OpenAI最新研究:當(dāng)前AI模型仍無(wú)法媲美人類(lèi)程序員快訊

IT之家 2025-02-24 10:12
分享到:
導(dǎo)讀

盡管這些前沿模型能夠快速地處理一些細(xì)節(jié)任務(wù),任何模型若想被真正用于實(shí)際編程任務(wù),OpenAI 對(duì)三款大型語(yǔ)言模型(LLMs)進(jìn)行了測(cè)試。

2 月 24 日消息,盡管 OpenAI 首席執(zhí)行官薩姆?奧爾特曼(Sam Altman)堅(jiān)稱(chēng),到今年年底,人工智能模型將能夠超越“低級(jí)別”軟件工程師,但該公司研究人員的最新研究卻表明,即使是目前最先進(jìn)的 AI 模型,仍無(wú)法與人類(lèi)程序員相媲美。

研究人員在一篇新論文中指出,即使是前沿模型 —— 即那些最具創(chuàng)新性和突破性的 AI 系統(tǒng) ——“仍然無(wú)法解決大多數(shù)”編程任務(wù)。為此,研究人員開(kāi)發(fā)了一個(gè)名為 SWE-Lancer 的新基準(zhǔn)測(cè)試工具,該工具基于自由職業(yè)者網(wǎng)站 Upwork 上的 1400 多個(gè)軟件工程任務(wù)。通過(guò)這一基準(zhǔn)測(cè)試,OpenAI 對(duì)三款大型語(yǔ)言模型(LLMs)進(jìn)行了測(cè)試,分別是其自身的 o1 推理模型、旗艦產(chǎn)品 GPT-4o,以及 Anthropic 公司的 Claude 3.5 Sonnet。

具體而言,這一新基準(zhǔn)測(cè)試評(píng)估了這些 LLMs 在處理 Upwork 上的兩類(lèi)任務(wù)時(shí)的表現(xiàn):一類(lèi)是個(gè)體任務(wù),涉及修復(fù)漏洞并實(shí)施修復(fù)措施;另一類(lèi)是管理任務(wù),要求模型從更宏觀的角度做出更高層次的決策。值得注意的是,在測(cè)試過(guò)程中,這些模型被禁止訪(fǎng)問(wèn)互聯(lián)網(wǎng),因此它們無(wú)法直接抄襲網(wǎng)上已有的類(lèi)似答案。

這些模型所承擔(dān)的任務(wù)在 Upwork 上的價(jià)值累計(jì)可達(dá)數(shù)十萬(wàn)美元,但它們僅能解決一些表面的軟件問(wèn)題,卻無(wú)法在大型項(xiàng)目中真正找到漏洞及其根源。這種“半成品”的解決方案,對(duì)于與 AI 有過(guò)合作經(jīng)驗(yàn)的人來(lái)說(shuō)并不陌生 ——AI 擅長(zhǎng)輸出聽(tīng)起來(lái)自信滿(mǎn)滿(mǎn)的信息,但在仔細(xì)審查時(shí)往往漏洞百出。

盡管論文指出,這三款 LLMs 通常能夠“遠(yuǎn)快于人類(lèi)”地完成任務(wù),但它們卻無(wú)法理解漏洞的廣泛性及其背景,從而導(dǎo)致解決方案“錯(cuò)誤或不夠全面”。

研究人員解釋稱(chēng),Claude 3.5 Sonnet 的表現(xiàn)優(yōu)于另外兩款 OpenAI 模型,并且在測(cè)試中“賺取”的金額也超過(guò)了 o1 和 GPT-4o。然而,其大多數(shù)答案仍然是錯(cuò)誤的。研究人員指出,任何模型若想被真正用于實(shí)際編程任務(wù),都需要具備“更高的可靠性”。

簡(jiǎn)而言之,該論文似乎表明,盡管這些前沿模型能夠快速地處理一些細(xì)節(jié)任務(wù),但它們?cè)谔幚磉@些任務(wù)時(shí)的技能水平,仍遠(yuǎn)遠(yuǎn)不及人類(lèi)工程師。

盡管近年來(lái)這些大型語(yǔ)言模型取得了快速的發(fā)展,并且未來(lái)還會(huì)繼續(xù)進(jìn)步,但它們目前在軟件工程領(lǐng)域的技能水平仍不足以取代人類(lèi)。然而IT之家注意到,這似乎并未阻止一些首席執(zhí)行官解雇人類(lèi)程序員,轉(zhuǎn)而使用這些尚未成熟的 AI 模型。(遠(yuǎn)洋)

模型 任務(wù) 人類(lèi) 研究 無(wú)法
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為T(mén)MT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。


主站蜘蛛池模板: ass日本乱妇ass| 亚洲品质自拍视频网站 | 日韩成人精品在线 | 欧美男男gaygayxxx | 日本最新伦中文字幕 | 成人免费视频一区二区 | 色综合久久最新中文字幕 | 精品一区二区三区视频日产 | 亚洲AV福利天堂一区二区三 | 四虎在线成人免费网站 | 911福利视频| 亚洲精品国产AV成人毛片 | 14一18cad中国大学生 | 91国产高清 | 午夜宅男网 | 小黄文污到你湿 | 男人天堂网在线 | 亚洲精品免费在线观看 | 国模大胆一区二区三区 | 边摸边吃奶边做爽视频免费 | 日本免费三区 | 色聚网久久综合 | 四虎永久成人免费 | 波多洁野衣一二区三区 | 美女女女女女女bbbbbb毛片 | 三年片韩国在线观看 | 大学生初次破苞免费视频 | 精品午夜久久福利大片免费 | 欧美一区二区三区四区视频 | 女八把屁股扒开让男生添 | 亚洲人的天堂男人爽爽爽 | 色噜噜亚洲男人的天堂www | 国产二区视频 | 日韩精品久久不卡中文字幕 | 国产动作大片 | 久久er国产免费精品 | 91精品国产91热久久久久福利 | 国产va免费精品高清在线观看 | 精品国产麻豆AV无码 | 99久久免费看精品国产一区 | 欧美摘花破处 |