連接超2萬顆B200 GPU!亞馬遜云科技聯手英偉達打造「云上AI算力」新王快訊
亞馬遜云科技將提供配置GB200 NVL72的英偉達Blackwell平臺,亞馬遜云科技將提供配置GB200 NVL72的英偉達Blackwell平臺,連接20736顆B200 GPU 英偉達Blackwell將加入亞馬遜云科技與英偉達合作的Project Ceiba項目。
【TechWeb】隨著英偉達在GTC2024大會上推出全新的NVIDIA Blackwell GPU平臺和NVIDIA GB200 Grace Blackwell Superchip“超級GPU”,AI算力又突破新高峰。
現在,全球云和AI一哥再攜手——亞馬遜云科技與英偉達宣布,NVIDIA Blackwell GPU平臺即將登陸亞馬遜云科技,為客戶提供前所未有的云上AI計算能力。
據悉,亞馬遜云科技與英偉達和合作,除了提升服務英偉達AI算力需求,亞馬遜云科技將提供配置GB200 NVL72的英偉達Blackwell平臺,還計劃提供配備基于新的英偉達B100 GPU的Amazn EC2實例,將超級云上AI算力提供了第三方客戶。
亞馬遜云科技首席執行官Adam Selipsky表示:“我們雙方的深入合作可以追溯到13年前,那時我們共同推出了世界上第一個亞馬遜云科技上的GPU云實例,而今天我們為客戶提供了最廣泛的英偉達GPU解決方案。英偉達下一代Grace Blackwell處理器是生成式AI和GPU計算的標志性事件。當結合亞馬遜云科技強大的Elastic Fabric Adapter網絡、Amazon EC2 UltraClusters的超規模集群功能,以及Amazon Nitro高級虛擬化系統及其安全功能時,我們就能夠使客戶更快、更大規模且更安全地構建和運行具有數萬億參數的大型語言模型。”
AI算力新王誕生:連接20736顆B200 GPU
英偉達Blackwell將加入亞馬遜云科技與英偉達合作的Project Ceiba項目。
Ceiba項目首次亮相是在去年11月底亞馬遜云科技2023 re:Invent全球大會上,是一臺專為英偉達自身的研究和開發而設的超級計算機,獨家托管在亞馬遜云科技上。
該項目專為英偉達的AI團隊設計,他們利用Ceiba推進大語言模型、圖形(圖像/視頻/3D生成)與仿真、數字生物學、機器人技術、自動駕駛汽車、NVIDIA Earth-2氣候預測等領域的AI技術,以幫助英偉達推動未來生成式AI的創新。
根據去年11月的報道,Ceiba是當時英偉達與亞馬遜云科技合作建造的世界上最快的AI超級計算之一,當時的計算性能為65exaflops。
現在,隨著英偉達Blackwell的加入,新的Ceiba項目擁有20,736顆GB200 GPU的超級計算機,采用新型NVIDIA GB200 NVL72系統構建,該系統利用第五代NVLink技術連接10,368顆NVIDIA Grace CPU。系統還通過亞馬遜云科技的第四代EFA網絡進行擴展,為每個Superchip提供高達800 Gbps的低延遲、高帶寬網絡吞吐量,能夠處理高達414 exaflops的AI計算量。
與去年11月底的re:Invent2023全球大會上披露的上一代Hopper架構上構建的Ceiba相比,搭載GB200 Superchips芯片的全新Ceiba計算性能從65exaflops提升至414 exaflops,提升了6倍多。
這也就意味著,從去年11月到今年3月,僅僅4個月時間,云上AI算力峰值就提升6倍!
合作賦能萬億級別大模型研發
事實上,在大模型研發領域,萬億級參數規模此前還算是一道門檻。
根據公開的報道,去年年中發布的GPT4的模型參數是1.8萬億,由8個220B模型組成;前不久發布的Claude3模型沒有公布參數規模,而馬斯克最新開源的Grok大模型參數是3140億參數規模。
亞馬遜云科技和英偉達的這次合作,能夠在加速萬億級別大語言模型的研發,為生成式AI領域的前沿突破提供新的可能。
亞馬遜云科技方面也表示,很快客戶就能在亞馬遜云科技上使用基于NVIDIA GB200 Grace Blackwell Superchip和B100 Tensor Core GPUs的基礎設施,對于數萬億參數規模的大語言模型而言,其推理工作負載將實現巨大飛躍。
NVIDIA GB200 Grace Blackwell Superchip是英偉達剛剛在2024年GTC大會推出的最新GPU產品。新的NVIDIA B200 GPU 由 2080 億個晶體管組成,而NVIDIA GB200 包含了兩個 B200 GPU 和一個 Grace CPU。
在具有1750 億個參數的 GPT-3 大語言模型基準測試中,GB200 性能是 H100 的 7 倍,訓練速度是 H100 的 4 倍,成本和能耗上GB200 比 H100 降低了 25 倍。
具體來看,亞馬遜云科技將提供配置GB200 NVL72的英偉達Blackwell平臺,該平臺具備配備72顆Blackwell GPU和36顆Grace CPU,通過第五代NVIDIA NVLink互連。

NVIDIA GB200 NVL72 是一種多節點、液冷、機架級系統,利用 Blackwell 為萬億參數模型提供強力計算,在單個機架中可實現 720 petaflops 的 AI 訓練性能和1.4 exaflops 的AI推理性能。
亞馬遜云科技則在云中為其提供強大的EFA網絡連接、高級虛擬化的Amazon Nitro系統和Amazon EC2 UltraClusters超大規模集群等技術支持,客戶能夠在亞馬遜云科技上擴展至數千個GB200 Superchips。
亞馬遜云科技還計劃提供配備基于新的英偉達B100 GPU的Amazn EC2實例,并能夠在Amazon EC2 UltraClusters中進行大規模部署。此前,亞馬遜云科技已經推出了基于英偉達H100芯片的Amazon EC2 P5實例,客戶能夠在云上將其P5實例擴展到超過2萬個英偉達H100 GPU。
GB200芯片同時也在亞馬遜云科技和英偉達共同開發的AI平臺NVIDIA DGX Cloud上可用,這是一個在亞馬遜云科技上雙方共同開發的AI平臺,為企業開發者提供了構建和部署先進生成式AI模型所需的專用基礎設施和軟件。
共同推進生成式AI在醫療健康與生命科學領域的應用
亞馬遜云科技與英偉達在利用計算機輔助的藥物發現領域進行合作拓展,推出了新的NVIDIA BioNeMo基礎模型,用于生成化學、蛋白質結構預測,以及理解藥物分子與目標的相互作用。
這些新模型將很快在Amazon HealthOmics上提供,這是一個專為幫助醫療保健和生命科學組織存儲、查詢和分析基因組、轉錄組及其他組學數據而設計的專用服務。
Amazon HealthOmics和英偉達醫療保健團隊還合作推出生成式AI微服務,以推進藥物發現、醫療技術和數字健康領域的發展,該服務提供一個新的GPU加速的云端服務目錄,涵蓋生物學、化學、成像和醫療保健數據,以便醫療企業能夠在亞馬遜云科技上利用生成式AI的最新成果。(果青)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。