星空影视免费观看高清,国产欧美一区二区三区免费,日韩大片免费观看

AI“推理”模型基準測試成本飆升為什么？快訊

IT之家 2025-04-13 14:32

分享到：

導讀

為什么推理模型的測試成本如此之高呢，推理模型的成本為 1485.35 美元（現匯率約合 10839 元人民幣），已經花費了約 5200 美元（現匯率約合 37945 元人民幣）來評估大約十幾種推理模型。

IT之家 4 月 13 日消息，隨著人工智能（AI）技術的不斷發展，所謂的“推理”AI 模型成為了研究熱點。這些模型能夠像人類一樣逐步思考問題，在特定領域，如物理學中，被認為比非推理模型能力更強。然而，這種優勢卻伴隨著高昂的測試成本，使得獨立驗證這些模型的能力變得困難重重。

據第三方 AI 測試機構“人工智能分析”（Artificial Analysis）提供的數據顯示，評估 OpenAI 的 o1 推理模型在七個流行的 AI 基準測試（包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500）中的表現，需要花費 2767.05 美元（IT之家注：現匯率約合 20191 元人民幣）。而評估 Anthropic 的 Claude 3.7 Sonnet 這一“混合”推理模型的成本為 1485.35 美元（現匯率約合 10839 元人民幣），相比之下，測試 OpenAI 的 o3-mini-high 則只需 344.59 美元（現匯率約合 2514 元人民幣）。盡管有些推理模型的測試成本相對較低，例如評估 OpenAI 的 o1-mini 只需 141.22 美元（現匯率約合 1030 元人民幣），但從整體來看，推理模型的測試成本仍然比較高昂。截至目前，“人工智能分析”已經花費了約 5200 美元（現匯率約合 37945 元人民幣）來評估大約十幾種推理模型，這一金額接近該公司分析超過 80 種非推理模型所花費的 2400 美元的兩倍。

OpenAI 在 2024 年 5 月發布的非推理 GPT-4o 模型，其評估成本僅為 108.85 美元，而 Claude 3.6 Sonnet（Claude 3.7 Sonnet 的非推理前身）的評估成本為 81.41 美元?！叭斯ぶ悄芊治觥甭摵蟿撌既藛讨?卡梅倫（George Cameron）向 TechCrunch 表示，隨著越來越多的 AI 實驗室開發推理模型，該組織計劃增加其測試預算。“在‘人工智能分析’，我們每月進行數百次評估，并為此投入了相當可觀的預算，”卡梅倫說，“我們預計隨著模型的頻繁發布，這一支出將會增加。”

“人工智能分析”并非唯一面臨 AI 測試成本上升的機構。AI 初創公司“通用推理”（General Reasoning）的首席執行官羅斯?泰勒（Ross Taylor）表示，他最近花費了 580 美元用大約 3700 個獨特的提示詞評估了 Claude 3.7 Sonnet。泰勒估計，僅對 MMLU Pro（一套旨在評估模型語言理解能力的問題集）進行一次完整的測試，成本就會超過 1800 美元。“我們正在邁向一個世界，在這個世界里，一個實驗室在一項基準測試中報告 x% 的結果，而他們在其中花費了 y 數量的計算資源，但學者們的資源遠遠小于 y，”泰勒在 X 上最近的一篇帖子中寫道，“沒有人能夠復制這些結果?！?/p>

那么，為什么推理模型的測試成本如此之高呢？主要原因在于它們生成了大量的 token。token 代表原始文本的片段，例如將單詞“fantastic”拆分為音節“fan”、“tas”和“tic”。據“人工智能分析”稱，在該公司的基準測試中，OpenAI 的 o1 生成了超過 4400 萬個 token，大約是 GPT-4o 生成量的八倍。大多數 AI 公司都是按 token 收費的，因此成本很容易就會累積起來。

此外，現代基準測試通常會從模型中引出大量 token，因為它們包含涉及復雜、多步驟任務的問題。Epoch AI 的高級研究員讓-斯坦尼斯拉斯?德內恩（Jean-Stanislas Denain）表示，這是因為今天的基準測試更加復雜，盡管每個基準測試的問題數量總體有所減少。“它們通常試圖評估模型執行現實世界任務的能力，例如編寫和執行代碼、瀏覽互聯網以及使用計算機，”德內恩稱。德內恩還指出，最昂貴的模型隨著時間的推移，每個 token 的成本也在增加。例如，Anthropic 在 2024 年 5 月發布的 Claude 3 Opus 是當時最昂貴的模型，每百萬輸出 token 的成本為 75 美元。而 OpenAI 今年早些時候推出的 GPT-4.5 和 o1-pro，每百萬輸出 token 的成本分別為 150 美元和 600 美元。

“盡管隨著時間的推移，模型的性能有所提高，達到給定性能水平的成本也確實大幅下降，但如果你想在任何特定時間評估最大最好的模型，你仍然需要支付更多，”德內恩說。許多 AI 實驗室，包括 OpenAI，為測試目的向基準測試組織提供免費或補貼的模型訪問權限。但一些專家表示，這會影響測試結果的公正性 —— 即使沒有操縱的證據，AI 實驗室的參與本身就可能損害評估評分的完整性。

模型成本評估 AI 推理

分享到：

1.TMT觀察網遵循行業規范，任何轉載的稿件都會明確標注作者和來源；
2.TMT觀察網的原創文章，請轉載時務必注明文章作者和"來源：TMT觀察網"，不尊重原創的行為TMT觀察網或將追究責任；
3.作者投稿可能會經TMT觀察網編輯修改或補充。

麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

AI“推理”模型基準測試成本飆升 為什么？快訊

AI“推理”模型基準測試成本飆升為什么？快訊