畫風(fēng)“快手味濃”、應(yīng)用前景不明朗:可靈難成快手“靈丹妙藥”快訊
打出“中國版Sora”旗號,快手迅速攻入文生視頻大模型領(lǐng)域。
作者|冰拿鐵
編輯|方奇
媒體|AI大模型工場
打出“中國版Sora”旗號,快手迅速攻入文生視頻大模型領(lǐng)域。6月6日,“可靈”視頻生成大模型官網(wǎng)正式上線, 生成的視頻分辨率高達(dá)1080p,時長最高可達(dá)2分鐘(幀率30fps);6月21日,可靈再添籌碼,宣布推出圖生視頻功能。
在開放公測后,一眾業(yè)內(nèi)人士和吃瓜群眾迅速涌入,在快手旗下創(chuàng)作工具快影 App申請,一試可靈“到底靈不靈”。而匯集多項測評及反饋,可以看到,可靈在技術(shù)上還和Sora有一定差距,除了語義理解問題、生成畫面不符合物理世界規(guī)律、真實性差等“硬傷”外,“畫風(fēng)質(zhì)感一言難盡”“美觀性欠佳”“快手味過濃”也是被頻繁提及的關(guān)鍵詞。
一言以蔽之,正如當(dāng)年依靠下沉市場異軍突起的路徑,快手如今在AI界,又一次展現(xiàn)出驚人相似的氣質(zhì)——基本功底不差,但仍然難逃“下沉”標(biāo)簽與命運。
存在語義理解、畫風(fēng)質(zhì)感等多薄弱環(huán)節(jié):
可靈難逃“下沉”標(biāo)簽?
在架構(gòu)選擇上,可靈緊跟Sora步伐。據(jù)快手大模型團隊介紹,其采用類似 Sora 模型的 DiT 結(jié)構(gòu),用Transformer代替了傳統(tǒng)擴散模型中基于卷積網(wǎng)絡(luò)的U-Net,這也是當(dāng)下文生視頻領(lǐng)域的主流趨勢——過去幾年,基于U-Net架構(gòu)的擴散模型暴露出無法處理復(fù)雜指令等問題,而Diffusion Transformer在處理大規(guī)模視覺數(shù)據(jù)方面具有顯著優(yōu)勢,能夠生成更為復(fù)雜和連貫的視頻內(nèi)容。
基于此,可靈整體表現(xiàn)不會太差,然而,在進(jìn)一步功力比拼中,可靈的短板逐漸暴露。
首先,是語義理解層面,在知乎“如何看待中國版Sora可靈爆火”這一問題下,有網(wǎng)友表示,輸入“一只大熊貓在開心地吃粽子”,結(jié)果生成了熊貓在吃水餃;再比如,想生成貓咪賽龍舟的場景,輸入“一群貓咪坐在龍舟里”,結(jié)果生成的視頻中沒有貓咪,只有人。
而這背后,則顯露出可靈在語義理解能力的與細(xì)節(jié)捕捉能力的功力不足:無論是無法分別出“人類”和“貓咪”的區(qū)別,還是混淆“粽子”和“水餃”,都意味著著可靈在語義層面上存在理解偏差,無法精確捕捉輸入描述中的關(guān)鍵信息,尤其是在處理非常規(guī)或特定領(lǐng)域的對象時,語義解析層面還有提升空間。
再往前追溯,可靈在構(gòu)建視頻場景時,可能受限于其訓(xùn)練數(shù)據(jù)和算法能力,無法準(zhǔn)確地將文字描述轉(zhuǎn)化為符合預(yù)期的視覺內(nèi)容:
訓(xùn)練過程中,可靈所依賴的數(shù)據(jù)集或缺乏足夠的“賽龍舟”等特定場景的數(shù)據(jù),導(dǎo)致模型無法準(zhǔn)確學(xué)習(xí)并生成相關(guān)視頻,此外,訓(xùn)練策略可能沒有針對細(xì)節(jié)進(jìn)行足夠的優(yōu)化,讓模型未能充分學(xué)習(xí)到“人類與貓咪”等不同對象之間的區(qū)別和特征。
再比如,據(jù)《每日經(jīng)濟新聞》測評,在一些視頻生成時,可靈存在諸多“失靈”時刻。例如,彈吉他的熊貓擁有人類的手指;提示詞中“淺綠色的布藝沙發(fā)”,到了視頻中呈現(xiàn)的則是紅棕色的皮質(zhì)沙發(fā)。同時,在一些視頻中,當(dāng)有多個主體時,有時也會出現(xiàn)一些元素?zé)o法完全呈現(xiàn)在視頻中的情況。
事實上,臺上一分鐘的文生視頻秀肌肉背后,比拼的是“臺下十年功”的訓(xùn)練積累。這也是為什么,大差不差的架構(gòu)下,可靈生成的視頻有諸多“bug”。
正如此前,一覽科技創(chuàng)始人羅江春公開表示,國內(nèi)生成式視頻大模型面臨的最大挑戰(zhàn),本質(zhì)上是底層能力的差距,這個底層能力包括數(shù)據(jù)、模型和算力:“我們有能力追上Sora今天的效果,但是當(dāng)追上的時候,Sora又已經(jīng)往前走了一大步,這個差距會保持比較長一段時間。”
除了硬傷外,可靈的畫風(fēng)更是被詬病最多的地方。在同樣的提示詞下,可靈和Sora生成的畫風(fēng)對比“一言難盡”。
拿讓Sora迅速爆火出圈的那段視頻來說,提示詞為“一位時尚的女人走在東京的街道上,街道上到處都是溫暖的發(fā)光霓虹燈和動畫城市標(biāo)志,她背著一個黑色錢包。她戴著墨鏡,涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果,許多行人四處走動。”
而有網(wǎng)友把同樣的提示詞投喂給可靈,生成的視頻卻極為“快手風(fēng)”:
歪嘴女主角邁著六親不認(rèn)的步伐,穿著看上去正常但湊在一起就莫名土味的穿搭,走出了精神小妹進(jìn)城討債的氣勢,背后還有緊身褲小伙亂入,整個街道也有一種濃濃的城鄉(xiāng)結(jié)合部既視感。讓人不禁想配一段社會語錄,比如“精致小包懷里夾,開上我的小捷達(dá)”“大姐走路就這么der,好像趙四跳皮筋”之類的。
在社交平臺上,也有很多網(wǎng)友表示“生成的畫風(fēng)很古早”“有點土”“果然是快手做出來的東西,有一種快手味”。
歸根結(jié)底,畫風(fēng)質(zhì)感差的背后,是數(shù)據(jù)集質(zhì)量與多樣性直接影響模型的輸出效果——如果訓(xùn)練數(shù)據(jù)中包含大量低質(zhì)量或風(fēng)格單一的圖像或視頻,缺乏現(xiàn)代、時尚或特定藝術(shù)風(fēng)格的樣本,模型就很難學(xué)習(xí)到高質(zhì)量、多樣化的畫風(fēng),導(dǎo)致生成時很難跳出固有的畫風(fēng)框架。
同時,在生成過程中,模型可能沒有足夠的約束條件來確保生成內(nèi)容的風(fēng)格一致性、細(xì)節(jié)豐富度和整體美感;優(yōu)化算法也可能未能充分探索生成空間的潛力,導(dǎo)致生成結(jié)果趨于平庸或單一。
對此,也有行業(yè)人士對此做出了點評,如《麻省理工科技評論》報道,北京的一位人工智能藝術(shù)家Guizang表示,Kling 的劣勢在于結(jié)果的美觀性,比如構(gòu)圖或色彩分級:“但這不是什么大問題。這個問題可以很快解決。”
誠然,在當(dāng)下,沒有對比就沒有傷害,占位國內(nèi)頭批開放公測的文生視頻大模型,可靈的問題無傷大雅,然而在群雄環(huán)繞的賽道,可靈很難長期“一家獨大”。
群雄環(huán)繞下,更多問題暴露:
可靈難成快手“靈丹妙藥”
如今,文生視頻領(lǐng)域并不缺實力派玩家。在今年2月Sora率先引爆全球后,文生視頻領(lǐng)域產(chǎn)品呈雨后春筍之勢全線爆發(fā),眾多產(chǎn)品和外界之間僅一墻之隔,就差“臨門一腳”,即向公眾開放了。
4月,生數(shù)科技發(fā)布文生視頻大模型Vidu,可根據(jù)文本描述直接生成16s、分辨率高達(dá)1080P的高清視頻內(nèi)容;5月,騰訊表示,其立足DiT架構(gòu)的混元大模型支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力;6月,極佳科技聯(lián)合清華大學(xué)發(fā)布中國首個端側(cè)可用的Sora級視頻生成大模型“視界一粟YiSu”,擁有模型原生的16秒時長,可生成1分鐘以上視頻……
隨著技術(shù)不斷完善,開放也逐漸被提上日程。6月30日,Runway向部分用戶開放Gen-3使用權(quán)限;7月2日,Runway宣布,其文生視頻模型Gen-3Alpha向所有用戶開放,每個月最少12美元即可使用。
隨著更多玩家紛紛揭開面紗,可靈頭上“首個開放公測”的光環(huán)也將淡去,這時,一眾技術(shù)真功夫比拼才剛剛開始。同時,對快手來說,重要的不是具有文生視頻能力多強悍,而是如何將其與商業(yè)版圖結(jié)合,推進(jìn)落地應(yīng)用。
在外界看來,作為短視頻平臺,快手天生擁有落地土壤,可以將“可靈”融入其創(chuàng)作者生態(tài),進(jìn)一步主推內(nèi)容場域繁榮。而“可靈”的推出也一定程度上反映了快手的內(nèi)容焦慮,據(jù)快手2024年Q1財報數(shù)據(jù)顯示,報告期內(nèi),快手實際月活人數(shù)為6.97億,環(huán)比下降0.4%,呈現(xiàn)流失趨勢,2023年Q4時為7.004億。
然而,AI創(chuàng)作并非內(nèi)容的“靈丹妙藥”——對用戶來說,看AI創(chuàng)作的短視頻更多是“看新鮮”“看熱鬧”,真正能產(chǎn)生黏性的仍然是真人主播及優(yōu)質(zhì)內(nèi)容。
同時,隨著可靈全面開放,在極大地降低短視頻制作的綜合成本和門檻的同時,也可能導(dǎo)致更多低質(zhì)量、無底線內(nèi)容涌現(xiàn),某些視頻甚至可能會被制作、濫用和惡意傳播,成為部分犯罪分子進(jìn)行電信詐騙、網(wǎng)絡(luò)傳銷、敲詐勒索的工具,加大平臺監(jiān)管難度。
快手顯然也明白這一點,今年6月,快手電商發(fā)布了使用AIGC能力直播的倡議公告,稱“我們更希望看到真實的直播內(nèi)容,鼓勵商家/達(dá)人和老鐵們進(jìn)行實時良好的互動,建立更加深厚的情感,同時,有意利用AIGC的低成本優(yōu)勢生產(chǎn)出的低質(zhì)量內(nèi)容更是平臺不愿意看到的內(nèi)容生產(chǎn)行為”。因此,“使用AIGC能力輔助創(chuàng)作的內(nèi)容相較于其他實時直播內(nèi)容,平臺不會給予特殊的流量扶持。”
事實上,C端看熱鬧,B端看門道,文生視頻大模型真正的落地仍在產(chǎn)業(yè)端。如Sora接入了海外主流的大語言模型,通過學(xué)習(xí)爆款視頻的文本結(jié)構(gòu),生成適合商家產(chǎn)品的文案和腳本,并自動與商家提供的產(chǎn)品素材匹配,一鍵生成視頻。
而在我國,華為盤古大模型5.0的多模態(tài)能力包括了視頻生成技術(shù),并面向產(chǎn)業(yè)端落地,據(jù)華為常務(wù)董事、華為云CEO張平安介紹,華為將視頻生成技術(shù)應(yīng)用到了自動駕駛的訓(xùn)練環(huán)節(jié);而字節(jié)跳動旗下的即夢則深入影視行業(yè),今年6月,官宣其和博納影業(yè)宣布聯(lián)合出品的AIGC科幻短劇集《三星堆:未來啟示錄》作為首席AI技術(shù)支持方,即夢AI基于豆包大模型技術(shù),提供了AI劇本創(chuàng)作、鏡頭畫面生成等十種AI技術(shù)。
這也給可靈的應(yīng)用落地提供了參考路徑。顯然,在從“精神大模型”到“AI靈丹妙藥”的飛躍中,可靈還有一段路要走。
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。