GPT-5來了!有博士級專業能力,跑分圖卻鬧大烏龍快訊
GPT-5超越一切 OpenAI此次發布的GPT-5系列模型包括,GPT-5超過了OpenAI o3、GPT-4o等此前OpenAI最強大的模型,OpenAI推出了GPT-5、GPT-5 mini、GPT-5 nano三種模型選擇。
【TechWeb】8月8日消息,今日凌晨,業內等待2年的GPT-5終于正式亮相了!
一發布,GPT-5就沖上大模型競技場榜首,在文本、編程、數學等全方面排名第一,全面超越Gemini-2.5-pro、Grok4等一眾競品大模型。

OpenAI稱,GPT-5不僅在基準測試中表現優于以前的模型,更快地回答問題,而且最重要的是,它對現實世界的查詢更有用。在減少幻覺、改善指令遵循和最大限度地減少阿諛奉承方面取得了重大進展,同時在ChatGPT最常見的三種用途(寫作、編碼和健康)中提高了GPT-5的性能。
OpenAI CEO 山姆 奧特曼(Sam Altman)表示,GPT-5非常聰明,如果說GPT-4還是大學生,GPT-5已經達到了博士級別的智能,與其對話就像是與一位在任何領域都擁有博士學位的專家溝通。
發布會上,奧特曼提到,32個月之前,OpenAI發布了ChatGPT,并在發布首周獲得超100萬用戶。如今,ChatGPT在全球范圍內已有超過7億用戶。
不過,在發布過程中,GPT-5團隊放出的一張“跑分”柱狀圖卻鬧了個“9.11>9.9”的大烏龍,在社交平臺上被眾人diss。
就是下面這張,“亮點”在:69.1數值的柱狀圖高度還不如52.8高。

被人截圖掛網上了,網友嘲是又一次“9.11>9.9”時刻。去年,ChatGPT-4o在回答“9.11和9.9哪個更大?”時曾答出經典的“9.11>9.9”。
現在,OpenAI官網已經悄悄更新了新的圖片(如下)。這個比例正常多了。

拋開這些,先看看GPT-5能力升級重點。
GPT-5超越一切
OpenAI此次發布的GPT-5系列模型包括:GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四個版本。
GPT-5首次集成多模態和推理能力,能自行判斷何時開啟深度思考,相當于把GPT系列和o系列進行了統一,用戶使用時不用再切換模型類型。
免費用戶的GPT-5用量有限,超過限額后將自動轉至GPT-5-mini。GPT-5-pro僅供Pro訂閱用戶使用,可憑借擴展推理功能,提供更全面、更準確的答案。
針對開發人員,在API平臺上,OpenAI推出了GPT-5、GPT-5 mini、GPT-5 nano三種模型選擇。

從官方放出的“跑分”情況,多項基準測試中,GPT-5超過了OpenAI o3、GPT-4o等此前OpenAI最強大的模型,在數學、編碼、視覺感知和健康方面表現尤其出色。
同時,GPT-5-pro模型還在科學知識基準測試GPQA上獲得了新的SOTA,無需工具即可得分88.4%。



最好編程模型
OpenAI特別強調了幾點:GPT-5是迄今為止最好的編程模型。
在真實世界編程SWE-benchVerified測試中GPT-5得分74.9%,較o3版本的69.1%有所提升。GPT?5以更高的效率和速度獲得了高分:與o3在高推理強度下相比,GPT?5的輸出tokens數量減少了22%,工具調用次數減少了45%。
在代碼編輯評估Aider polyglot上,GPT-5創下了88%的新紀錄,與o3相比,錯誤率降低了三分之一。
在網頁開發中,GPT-5創造新紀錄,超越Gemini-2.5-pro和Claude-Opus-4。
為了驗證GPT-5編碼的能力,在發布會上,OpenAI還特地邀請了AI編程創企Cursor聯合創始人兼首席執行官Michael Truell進行現場演示。

Michael Truell表示,GPT-5是我們使用過的最智能的編碼模型,GPT-5在API調用中展現出了不錯的穩定性,在Cursor里解決上述問題時,它面對的是一組從未見過的定制模型、從未見過的定制工具,還需要從網上抓取文本、在代碼庫里搜索等,解決問題的速度比他本人要快很多。
OpenAI官網上公開了更多編程案例。
例如,下面這個,開發出的小游戲,畫面精美、游戲機制和可玩性都很不錯。

同時,OpenAI稱GPT-5在Agent任務方面同樣表現出色。GPT?5在指令跟蹤基準測試(Scale MultiChallenge為69.6%,由o3-mini評分)和工具調用基準測試(τ2-bench telecom為96.7%)方面創下了新紀錄。
通用Agent創企Manus聯合創始人兼首席科學家Yichao ‘Peak’ Ji稱,“GPT?5在各種Agent任務中表現出色,即使在未修改任何代碼或調整提示的情況下。對工具使用的更精確控制使Agent的穩定性和可操縱性有了顯著的飛躍。”
另外,GPT-5要比目前最擅長寫作的GPT-4.5更加優秀。GPT-5改進了語音功能,聽起來就像跟人對話一樣自然。
OpenAI還強調,GPT-5是迄今為止解決健康相關問題的最佳模型,它使用戶能夠了解并倡導自己的健康。該模型的得分明顯高于HealthBench上的任何先前模型?。與之前的模型相比,GPT-5更像是一個積極的思維伙伴,主動標記潛在的問題,并提出問題以提供更有幫助的答案。該模型現在還提供了更精確和可靠的響應,適應了用戶的背景、知識水平和地理位置,使其能夠在各種情況下提供更安全、更有用的響應。
OpenAI還面向付費用戶推出個性化定制的ChatGPT,支持自定義聊天功能,可調整模型的性格,還能改變聊天界面的顏色。
在價格上,GPT-5也較有競爭力的。
GPT-5:輸入1.25美元/百萬token,輸出10美元/百萬tokenGPT-5 mini:輸入0.25美元/百萬token,輸出2美元/百萬tokenGPT-5 nano:輸入0.05美元/百萬token,輸出0.4美元/百萬token。
對于開發人員來說,與Anthropic和Google的最強大模型相比,GPT-5成本相當或者更低。


馬斯克不服
對于GPT-5的各種“第一”,奧特曼的老冤家馬斯克也在第一時間表示了不服。
馬斯克在社交平臺發文:在人類最后測試上,還是Grok4 Heavy更勝一籌。內涵GPT-5這最強大模型有水分。
GPT-5后續實測 到底表現如何, 我們也將持續關注。(果青)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。