探索AI寫代碼極致:Claude Opus 4.1模型登場,軟件工程能力再攀新高峰快訊
宣布推出 Claude Opus 4.1 模型,而 Claude Opus 4 的準確率為 72.5%,Claude Sonnet 3.7 的準確率為 62.3%。
8 月 6 日消息,Anthropic 公司今天(8 月 6 日)發布公告,宣布推出 Claude Opus 4.1 模型,相比較今年 5 月推出的 Claude 4 系列模型,主要改進了編碼、推理和執行指令的能力。
Anthropic 表示,Claude Opus 4.1 在 SWE-bench Verified 上(用于評估軟件工程準確性)提升到了 74.5%,作為對比,Claude Sonnet 3.7 的準確率為 62.3%,而 Claude Opus 4 的準確率為 72.5%。具體來說,更新后的模型在“深度研究和數據分析技能,尤其是在細節追蹤和代理搜索方面”表現得更加出色。
與 Opus 4 相比,Opus 4.1 在大多數功能上都有所提升,特別是在多文件代碼重構方面表現尤為突出。附上相關數據如下:
Rakuten Group 發現,Opus 4.1 不做不必要的調整或引入新的錯誤,能夠精確地在大型代碼庫中定位并修正錯誤。
Windsurf 報告稱,Opus 4.1 在其初級開發者基準測試中,比 Opus 4 表現提高了標準差的一個單位,這一性能飛躍與從 Sonnet 3.7 到 Sonnet 4 的跳躍相當。
最新的模型今日起面向 Claude 客戶開放,可以通過 Claude Code、Anthropic 的 API、亞馬遜 Bedrock 和谷歌云的 Vertex AI 使用。
同時,Anthropic 在社交媒體上表示,計劃在未來幾周內發布“對我們模型的重大改進”,因此可以期待 Claude 系列模型的更多升級。OpenAI 也預計將在本周發布新消息。(故淵)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。