麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

谷歌聯合研究:合成數據讓大模型數學推理能力飆升八倍快訊

TechWeb.com.cn 2025-04-07 16:33
分享到:
導讀

經過正向和負向合成數據預訓練的大模型,而低優勢步驟可能意味著模型推理存在問題,發布了一項關于合成數據在大型模型訓練中應用的重要研究成果。

【TechWeb】近期,由谷歌、卡內基梅隆大學和MultiOn組成的聯合研究團隊,發布了一項關于合成數據在大型模型訓練中應用的重要研究成果。

專注于人工智能發展的研究機構Epoch AI報告指出,當前全球約有300萬億個公開可用的高質量文本訓練標記。但隨著像ChatGPT這類大模型的快速發展,對訓練數據的需求呈指數級增長,預計在2026年之前,這些現有數據將被耗盡。在此背景下,合成數據成為了關鍵的替代方案。

研究人員著重探索了兩種合成數據類型,即正向數據和負向數據。正向數據是由高性能大模型,如GPT - 4和Gemini 1.5 Pro生成的正確問題解決方案,為模型提供解決數學問題的范例。然而,單純依靠正向數據進行訓練存在明顯局限。其一,這種方式可能無法讓模型真正理解問題解決背后的邏輯,只是通過模式匹配來學習;其二,隨著訓練數據量的增加,模型可能會學到虛假的相關性,導致在處理新問題時泛化能力降低。

有鑒于此,研究人員引入了負向數據,也就是經過驗證為錯誤的問題解決步驟。這能幫助模型識別并避免錯誤,從而增強其邏輯推理能力。盡管使用負向數據存在挑戰,因為錯誤步驟可能包含誤導性信息,但研究人員借助直接偏好優化(DPO)方法,成功讓模型從錯誤中學習,并強調每個問題解決步驟的重要性。

DPO方法會為每個問題解決步驟分配一個優勢值,以反映其相對于理想解決方案的價值。研究發現,高優勢步驟是正確解決問題的關鍵,而低優勢步驟可能意味著模型推理存在問題?;谶@些優勢值,模型能夠在強化學習框架內動態調整策略,更高效地從合成數據中學習和改進。

為驗證合成數據的有效性,研究團隊選用DeepSeek - Math - 7B和LLaMa2 - 7B等模型,在GSM8K和MATH數據集上開展了全面測試。結果令人驚喜,經過正向和負向合成數據預訓練的大模型,在數學推理任務上的性能提升了八倍。這一研究充分彰顯了合成數據在增強大模型邏輯推理能力方面的巨大潛力,為大模型的發展開辟了新的方向。(Suky)

模型 數據 研究 訓練 合成
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: а天堂中文最新版在线 | 成人福利在线 | 婷婷99视频精品全部在线观看 | 黑人好大好硬好深好爽想要h | 欧美色阁 | 91精品手机国产露脸 | 天天舔天天干 | 国产精视频 | 成在线人免费视频一区二区三区 | poren18日本老师hd | 美女张开腿让我了一夜 | 99热最新在线观看 | 色在线影院 | 日本一卡2卡3卡4卡乱 | 国产成人一区二区三区小说 | 国产rpg迷雾之风冷狐破解 | 亚洲日韩精品欧美一区二区一 | 天堂网在线.www天堂在线视频 | 99综合在线 | 亚洲四虎 | 亚洲视屏在线观看 | 亚洲福利视频一区 | 免费一区二区视频 | 男人把大ji巴放进男人免费视频 | 亚洲白拍 | 欧美黑大吊 | 成人操| 我年轻漂亮的继坶2中字在线播放 | 五月天婷婷精品免费视频 | 亚洲a区视频 | 传说之下羊妈挤羊奶网站 | 国产女主播在线播放一区二区 | 香蕉精品国产高清自在自线 | 无码射肉在线播放视频 | 国产综合久久久久 | 欧美日韩精品乱国产538 | 亚洲高清无码在线 视频 | 午夜免费无码福利视频麻豆 | 国产99久久久国产精品成人 | 国产第一草草影院 | 日本免费v片一二三区 |