阿里云通義萬相2.2三款視頻生成模型正式開源快訊
文生視頻模型和圖生視頻模型均為業(yè)界首個使用MoE架構(gòu)的視頻生成模型,包括開源文生視頻Wan2.2-T2V-A14B、圖生視頻Wan2.2-I2V-A14B、統(tǒng)一視頻生成Wan2.2-TI2V-5B,統(tǒng)一視頻生成Wan2.2-TI2V-5B是一款5B小尺寸的模型。
【TechWeb】7月29日消息,阿里云宣布通義萬相重磅開源,通義萬相2.2正式開源,包括開源文生視頻Wan2.2-T2V-A14B、圖生視頻Wan2.2-I2V-A14B、統(tǒng)一視頻生成Wan2.2-TI2V-5B。
即日起,用戶可在GitHub、HuggingFace、魔搭社區(qū)下載模型和代碼,也可在通義萬相官網(wǎng)和通義APP直接體驗。
文生視頻模型和圖生視頻模型均為業(yè)界首個使用MoE架構(gòu)的視頻生成模型,總參數(shù)量為27B,激活參數(shù)14B;同時,首創(chuàng)電影美學(xué)控制系統(tǒng),光影、色彩、構(gòu)圖、微表情等能力媲美專業(yè)電影水平。
Wan2.2-T2V-A14B、Wan2.2-I2V-A14B兩款模型均由高噪聲專家模型和低噪專家模型組成,分別負(fù)責(zé)視頻的整體布局和細(xì)節(jié)完善,在同參數(shù)規(guī)模下,可節(jié)省約50%的計算資源消耗,在模型能上,通義萬相2.2在復(fù)雜運動生成、人物交互、美學(xué)表達(dá)、復(fù)雜運動等維度上也取得了顯著提升。
統(tǒng)一視頻生成Wan2.2-TI2V-5B是一款5B小尺寸的模型,單一模型同時支持文生視頻和圖生視頻,可在消費級顯卡部署。
該模型采用了高壓縮率3D VAE架構(gòu),時間與空間壓縮比達(dá)到高達(dá) 4×16×16,信息壓縮率提升至 64,均實現(xiàn)了開源模型的最高水平,僅需22G顯存(單張消費級顯卡)即可在數(shù)分鐘內(nèi)生成5秒高清視頻,是目前24幀每秒、720P像素級視頻生成速度最快的基礎(chǔ)模型。(宜月)
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。