日韩视频在线观看免费,国产成人精彩在线视频50,黄色片网址在线观看

GPT-5來了！有博士級專業能力，跑分圖卻鬧大烏龍快訊

TechWeb.com.cn 2025-08-08 10:32

分享到：

導讀

GPT-5超越一切 OpenAI此次發布的GPT-5系列模型包括，GPT-5超過了OpenAI o3、GPT-4o等此前OpenAI最強大的模型，OpenAI推出了GPT-5、GPT-5 mini、GPT-5 nano三種模型選擇。

【TechWeb】8月8日消息，今日凌晨，業內等待2年的GPT-5終于正式亮相了！

一發布，GPT-5就沖上大模型競技場榜首，在文本、編程、數學等全方面排名第一，全面超越Gemini-2.5-pro、Grok4等一眾競品大模型。

OpenAI稱，GPT-5不僅在基準測試中表現優于以前的模型，更快地回答問題，而且最重要的是，它對現實世界的查詢更有用。在減少幻覺、改善指令遵循和最大限度地減少阿諛奉承方面取得了重大進展，同時在ChatGPT最常見的三種用途（寫作、編碼和健康）中提高了GPT-5的性能。

OpenAI CEO 山姆奧特曼（Sam Altman）表示，GPT-5非常聰明，如果說GPT-4還是大學生，GPT-5已經達到了博士級別的智能，與其對話就像是與一位在任何領域都擁有博士學位的專家溝通。

發布會上，奧特曼提到，32個月之前，OpenAI發布了ChatGPT，并在發布首周獲得超100萬用戶。如今，ChatGPT在全球范圍內已有超過7億用戶。

不過，在發布過程中，GPT-5團隊放出的一張“跑分”柱狀圖卻鬧了個“9.11>9.9”的大烏龍，在社交平臺上被眾人diss。

就是下面這張，“亮點”在：69.1數值的柱狀圖高度還不如52.8高。

被人截圖掛網上了，網友嘲是又一次“9.11>9.9”時刻。去年，ChatGPT-4o在回答“9.11和9.9哪個更大？”時曾答出經典的“9.11>9.9”。

現在，OpenAI官網已經悄悄更新了新的圖片（如下）。這個比例正常多了。

拋開這些，先看看GPT-5能力升級重點。

GPT-5超越一切

OpenAI此次發布的GPT-5系列模型包括：GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四個版本。

GPT-5首次集成多模態和推理能力，能自行判斷何時開啟深度思考，相當于把GPT系列和o系列進行了統一，用戶使用時不用再切換模型類型。

免費用戶的GPT-5用量有限，超過限額后將自動轉至GPT-5-mini。GPT-5-pro僅供Pro訂閱用戶使用，可憑借擴展推理功能，提供更全面、更準確的答案。

針對開發人員，在API平臺上，OpenAI推出了GPT-5、GPT-5 mini、GPT-5 nano三種模型選擇。

從官方放出的“跑分”情況，多項基準測試中，GPT-5超過了OpenAI o3、GPT-4o等此前OpenAI最強大的模型，在數學、編碼、視覺感知和健康方面表現尤其出色。

同時，GPT-5-pro模型還在科學知識基準測試GPQA上獲得了新的SOTA，無需工具即可得分88.4%。

最好編程模型

OpenAI特別強調了幾點：GPT-5是迄今為止最好的編程模型。

在真實世界編程SWE-benchVerified測試中GPT-5得分74.9%，較o3版本的69.1%有所提升。GPT?5以更高的效率和速度獲得了高分：與o3在高推理強度下相比，GPT?5的輸出tokens數量減少了22%，工具調用次數減少了45%。

在代碼編輯評估Aider polyglot上，GPT-5創下了88%的新紀錄，與o3相比，錯誤率降低了三分之一。

在網頁開發中，GPT-5創造新紀錄，超越Gemini-2.5-pro和Claude-Opus-4。

為了驗證GPT-5編碼的能力，在發布會上，OpenAI還特地邀請了AI編程創企Cursor聯合創始人兼首席執行官Michael Truell進行現場演示。

Michael Truell表示，GPT-5是我們使用過的最智能的編碼模型，GPT-5在API調用中展現出了不錯的穩定性，在Cursor里解決上述問題時，它面對的是一組從未見過的定制模型、從未見過的定制工具，還需要從網上抓取文本、在代碼庫里搜索等，解決問題的速度比他本人要快很多。

OpenAI官網上公開了更多編程案例。

例如，下面這個，開發出的小游戲，畫面精美、游戲機制和可玩性都很不錯。

同時，OpenAI稱GPT-5在Agent任務方面同樣表現出色。GPT?5在指令跟蹤基準測試（Scale MultiChallenge為69.6%，由o3-mini評分）和工具調用基準測試（τ2-bench telecom為96.7%）方面創下了新紀錄。

通用Agent創企Manus聯合創始人兼首席科學家Yichao ‘Peak’ Ji稱，“GPT?5在各種Agent任務中表現出色，即使在未修改任何代碼或調整提示的情況下。對工具使用的更精確控制使Agent的穩定性和可操縱性有了顯著的飛躍。”

另外，GPT-5要比目前最擅長寫作的GPT-4.5更加優秀。GPT-5改進了語音功能，聽起來就像跟人對話一樣自然。

OpenAI還強調，GPT-5是迄今為止解決健康相關問題的最佳模型，它使用戶能夠了解并倡導自己的健康。該模型的得分明顯高于HealthBench上的任何先前模型?。與之前的模型相比，GPT-5更像是一個積極的思維伙伴，主動標記潛在的問題，并提出問題以提供更有幫助的答案。該模型現在還提供了更精確和可靠的響應，適應了用戶的背景、知識水平和地理位置，使其能夠在各種情況下提供更安全、更有用的響應。

OpenAI還面向付費用戶推出個性化定制的ChatGPT，支持自定義聊天功能，可調整模型的性格，還能改變聊天界面的顏色。

在價格上，GPT-5也較有競爭力的。

GPT-5：輸入1.25美元/百萬token，輸出10美元/百萬tokenGPT-5 mini：輸入0.25美元/百萬token，輸出2美元/百萬tokenGPT-5 nano：輸入0.05美元/百萬token，輸出0.4美元/百萬token。

對于開發人員來說，與Anthropic和Google的最強大模型相比，GPT-5成本相當或者更低。

馬斯克不服

對于GPT-5的各種“第一”，奧特曼的老冤家馬斯克也在第一時間表示了不服。

馬斯克在社交平臺發文：在人類最后測試上，還是Grok4 Heavy更勝一籌。內涵GPT-5這最強大模型有水分。

GPT-5后續實測到底表現如何，我們也將持續關注。（果青）

GPT- 模型 OpenAI 用戶 GPT

分享到：

1.TMT觀察網遵循行業規范，任何轉載的稿件都會明確標注作者和來源；
2.TMT觀察網的原創文章，請轉載時務必注明文章作者和"來源：TMT觀察網"，不尊重原創的行為TMT觀察網或將追究責任；
3.作者投稿可能會經TMT觀察網編輯修改或補充。

麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

GPT-5來了！有博士級專業能力，跑分圖卻鬧大烏龍快訊