玖玖五月,国产一久久香蕉国产线看观看,97视频在线观看免费播放

有望改寫AI未來！英偉達全新nGPT使訓練速度暴增20倍快訊

快科技 2024-10-20 16:32

分享到：

導讀

其研究團隊提出了一種名為歸一化Transformer（nGPT）的新型神經網絡架構，每一層模型都通過位移來貢獻最終的輸出預測，訓練速度提高了4倍。

快科技10月20日消息，據媒體報道，NVIDIA的最新研究可能徹底改變AI的未來，其研究團隊提出了一種名為歸一化Transformer（nGPT）的新型神經網絡架構。

這一架構在超球面（hypersphere）上進行表示學習，能夠顯著提升大型語言模型（LLM）的訓練速度，最高可達20倍，同時保持了模型的精度。

nGPT架構的核心在于將所有向量，包括嵌入、多層感知機（MLP）、注意力矩陣和隱藏狀態，歸一化為單位范數。

這種歸一化處理使得輸入的token在超球面表面上移動，每一層模型都通過位移來貢獻最終的輸出預測。

實驗結果表明，nGPT在訓練時所需的步驟比標準Transformer模型減少了4到20倍，具體加速效果取決于序列長度。

例如，在1k上下文中，訓練速度提高了4倍；在4k上下文中，提高了10倍；而在8k上下文中，更是提高了20倍。

研究人員指出，nGPT的優化路徑從超球面上的點開始，通過位移來貢獻最終的輸出預測，其中位移量由MLP和注意力模塊定義。

這種方法不僅提高了訓練速度，還增強了模型的穩定性。

模型 nGPT 訓練研究歸一化

分享到：

1.TMT觀察網遵循行業規范，任何轉載的稿件都會明確標注作者和來源；
2.TMT觀察網的原創文章，請轉載時務必注明文章作者和"來源：TMT觀察網"，不尊重原創的行為TMT觀察網或將追究責任；
3.作者投稿可能會經TMT觀察網編輯修改或補充。