日本人的色道www免费一区,在线观看h视频,欧美日韩精品在线观看

畫風(fēng)“快手味濃”、應(yīng)用前景不明朗：可靈難成快手“靈丹妙藥”快訊

AI大模型工場 2024-07-03 16:45

分享到：

導(dǎo)讀

打出“中國版Sora”旗號，快手迅速攻入文生視頻大模型領(lǐng)域。

作者｜冰拿鐵

編輯｜方奇

媒體｜AI大模型工場

打出“中國版Sora”旗號，快手迅速攻入文生視頻大模型領(lǐng)域。6月6日，“可靈”視頻生成大模型官網(wǎng)正式上線，生成的視頻分辨率高達(dá)1080p，時長最高可達(dá)2分鐘（幀率30fps）；6月21日，可靈再添籌碼，宣布推出圖生視頻功能。

在開放公測后，一眾業(yè)內(nèi)人士和吃瓜群眾迅速涌入，在快手旗下創(chuàng)作工具快影 App申請，一試可靈“到底靈不靈”。而匯集多項測評及反饋，可以看到，可靈在技術(shù)上還和Sora有一定差距，除了語義理解問題、生成畫面不符合物理世界規(guī)律、真實性差等“硬傷”外，“畫風(fēng)質(zhì)感一言難盡”“美觀性欠佳”“快手味過濃”也是被頻繁提及的關(guān)鍵詞。

一言以蔽之，正如當(dāng)年依靠下沉市場異軍突起的路徑，快手如今在AI界，又一次展現(xiàn)出驚人相似的氣質(zhì)——基本功底不差，但仍然難逃“下沉”標(biāo)簽與命運。

存在語義理解、畫風(fēng)質(zhì)感等多薄弱環(huán)節(jié)：

可靈難逃“下沉”標(biāo)簽？

在架構(gòu)選擇上，可靈緊跟Sora步伐。據(jù)快手大模型團隊介紹，其采用類似 Sora 模型的 DiT 結(jié)構(gòu)，用Transformer代替了傳統(tǒng)擴散模型中基于卷積網(wǎng)絡(luò)的U-Net，這也是當(dāng)下文生視頻領(lǐng)域的主流趨勢——過去幾年，基于U-Net架構(gòu)的擴散模型暴露出無法處理復(fù)雜指令等問題，而Diffusion Transformer在處理大規(guī)模視覺數(shù)據(jù)方面具有顯著優(yōu)勢，能夠生成更為復(fù)雜和連貫的視頻內(nèi)容。

基于此，可靈整體表現(xiàn)不會太差，然而，在進(jìn)一步功力比拼中，可靈的短板逐漸暴露。

首先，是語義理解層面，在知乎“如何看待中國版Sora可靈爆火”這一問題下，有網(wǎng)友表示，輸入“一只大熊貓在開心地吃粽子”，結(jié)果生成了熊貓在吃水餃；再比如，想生成貓咪賽龍舟的場景，輸入“一群貓咪坐在龍舟里”，結(jié)果生成的視頻中沒有貓咪，只有人。

而這背后，則顯露出可靈在語義理解能力的與細(xì)節(jié)捕捉能力的功力不足：無論是無法分別出“人類”和“貓咪”的區(qū)別，還是混淆“粽子”和“水餃”，都意味著著可靈在語義層面上存在理解偏差，無法精確捕捉輸入描述中的關(guān)鍵信息，尤其是在處理非常規(guī)或特定領(lǐng)域的對象時，語義解析層面還有提升空間。

再往前追溯，可靈在構(gòu)建視頻場景時，可能受限于其訓(xùn)練數(shù)據(jù)和算法能力，無法準(zhǔn)確地將文字描述轉(zhuǎn)化為符合預(yù)期的視覺內(nèi)容：

訓(xùn)練過程中，可靈所依賴的數(shù)據(jù)集或缺乏足夠的“賽龍舟”等特定場景的數(shù)據(jù)，導(dǎo)致模型無法準(zhǔn)確學(xué)習(xí)并生成相關(guān)視頻，此外，訓(xùn)練策略可能沒有針對細(xì)節(jié)進(jìn)行足夠的優(yōu)化，讓模型未能充分學(xué)習(xí)到“人類與貓咪”等不同對象之間的區(qū)別和特征。

再比如，據(jù)《每日經(jīng)濟新聞》測評，在一些視頻生成時，可靈存在諸多“失靈”時刻。例如，彈吉他的熊貓擁有人類的手指；提示詞中“淺綠色的布藝沙發(fā)”，到了視頻中呈現(xiàn)的則是紅棕色的皮質(zhì)沙發(fā)。同時，在一些視頻中，當(dāng)有多個主體時，有時也會出現(xiàn)一些元素?zé)o法完全呈現(xiàn)在視頻中的情況。

事實上，臺上一分鐘的文生視頻秀肌肉背后，比拼的是“臺下十年功”的訓(xùn)練積累。這也是為什么，大差不差的架構(gòu)下，可靈生成的視頻有諸多“bug”。

正如此前，一覽科技創(chuàng)始人羅江春公開表示，國內(nèi)生成式視頻大模型面臨的最大挑戰(zhàn)，本質(zhì)上是底層能力的差距，這個底層能力包括數(shù)據(jù)、模型和算力：“我們有能力追上Sora今天的效果，但是當(dāng)追上的時候，Sora又已經(jīng)往前走了一大步，這個差距會保持比較長一段時間。”

除了硬傷外，可靈的畫風(fēng)更是被詬病最多的地方。在同樣的提示詞下，可靈和Sora生成的畫風(fēng)對比“一言難盡”。

拿讓Sora迅速爆火出圈的那段視頻來說，提示詞為“一位時尚的女人走在東京的街道上，街道上到處都是溫暖的發(fā)光霓虹燈和動畫城市標(biāo)志，她背著一個黑色錢包。她戴著墨鏡，涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光，營造出五顏六色的燈光的鏡面效果，許多行人四處走動。”

而有網(wǎng)友把同樣的提示詞投喂給可靈，生成的視頻卻極為“快手風(fēng)”：

歪嘴女主角邁著六親不認(rèn)的步伐，穿著看上去正常但湊在一起就莫名土味的穿搭，走出了精神小妹進(jìn)城討債的氣勢，背后還有緊身褲小伙亂入，整個街道也有一種濃濃的城鄉(xiāng)結(jié)合部既視感。讓人不禁想配一段社會語錄，比如“精致小包懷里夾，開上我的小捷達(dá)”“大姐走路就這么der，好像趙四跳皮筋”之類的。

在社交平臺上，也有很多網(wǎng)友表示“生成的畫風(fēng)很古早”“有點土”“果然是快手做出來的東西，有一種快手味”。

歸根結(jié)底，畫風(fēng)質(zhì)感差的背后，是數(shù)據(jù)集質(zhì)量與多樣性直接影響模型的輸出效果——如果訓(xùn)練數(shù)據(jù)中包含大量低質(zhì)量或風(fēng)格單一的圖像或視頻，缺乏現(xiàn)代、時尚或特定藝術(shù)風(fēng)格的樣本，模型就很難學(xué)習(xí)到高質(zhì)量、多樣化的畫風(fēng)，導(dǎo)致生成時很難跳出固有的畫風(fēng)框架。

同時，在生成過程中，模型可能沒有足夠的約束條件來確保生成內(nèi)容的風(fēng)格一致性、細(xì)節(jié)豐富度和整體美感；優(yōu)化算法也可能未能充分探索生成空間的潛力，導(dǎo)致生成結(jié)果趨于平庸或單一。

對此，也有行業(yè)人士對此做出了點評，如《麻省理工科技評論》報道，北京的一位人工智能藝術(shù)家Guizang表示，Kling 的劣勢在于結(jié)果的美觀性，比如構(gòu)圖或色彩分級：“但這不是什么大問題。這個問題可以很快解決。”

誠然，在當(dāng)下，沒有對比就沒有傷害，占位國內(nèi)頭批開放公測的文生視頻大模型，可靈的問題無傷大雅，然而在群雄環(huán)繞的賽道，可靈很難長期“一家獨大”。

群雄環(huán)繞下，更多問題暴露：

可靈難成快手“靈丹妙藥”

如今，文生視頻領(lǐng)域并不缺實力派玩家。在今年2月Sora率先引爆全球后，文生視頻領(lǐng)域產(chǎn)品呈雨后春筍之勢全線爆發(fā)，眾多產(chǎn)品和外界之間僅一墻之隔，就差“臨門一腳”，即向公眾開放了。

4月，生數(shù)科技發(fā)布文生視頻大模型Vidu，可根據(jù)文本描述直接生成16s、分辨率高達(dá)1080P的高清視頻內(nèi)容；5月，騰訊表示，其立足DiT架構(gòu)的混元大模型支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力；6月，極佳科技聯(lián)合清華大學(xué)發(fā)布中國首個端側(cè)可用的Sora級視頻生成大模型“視界一粟YiSu”，擁有模型原生的16秒時長，可生成1分鐘以上視頻……

隨著技術(shù)不斷完善，開放也逐漸被提上日程。6月30日，Runway向部分用戶開放Gen-3使用權(quán)限；7月2日，Runway宣布，其文生視頻模型Gen-3Alpha向所有用戶開放，每個月最少12美元即可使用。

隨著更多玩家紛紛揭開面紗，可靈頭上“首個開放公測”的光環(huán)也將淡去，這時，一眾技術(shù)真功夫比拼才剛剛開始。同時，對快手來說，重要的不是具有文生視頻能力多強悍，而是如何將其與商業(yè)版圖結(jié)合，推進(jìn)落地應(yīng)用。

在外界看來，作為短視頻平臺，快手天生擁有落地土壤，可以將“可靈”融入其創(chuàng)作者生態(tài)，進(jìn)一步主推內(nèi)容場域繁榮。而“可靈”的推出也一定程度上反映了快手的內(nèi)容焦慮，據(jù)快手2024年Q1財報數(shù)據(jù)顯示，報告期內(nèi)，快手實際月活人數(shù)為6.97億，環(huán)比下降0.4%，呈現(xiàn)流失趨勢，2023年Q4時為7.004億。

然而，AI創(chuàng)作并非內(nèi)容的“靈丹妙藥”——對用戶來說，看AI創(chuàng)作的短視頻更多是“看新鮮”“看熱鬧”，真正能產(chǎn)生黏性的仍然是真人主播及優(yōu)質(zhì)內(nèi)容。

同時，隨著可靈全面開放，在極大地降低短視頻制作的綜合成本和門檻的同時，也可能導(dǎo)致更多低質(zhì)量、無底線內(nèi)容涌現(xiàn)，某些視頻甚至可能會被制作、濫用和惡意傳播，成為部分犯罪分子進(jìn)行電信詐騙、網(wǎng)絡(luò)傳銷、敲詐勒索的工具，加大平臺監(jiān)管難度。

快手顯然也明白這一點，今年6月，快手電商發(fā)布了使用AIGC能力直播的倡議公告，稱“我們更希望看到真實的直播內(nèi)容，鼓勵商家/達(dá)人和老鐵們進(jìn)行實時良好的互動，建立更加深厚的情感，同時，有意利用AIGC的低成本優(yōu)勢生產(chǎn)出的低質(zhì)量內(nèi)容更是平臺不愿意看到的內(nèi)容生產(chǎn)行為”。因此，“使用AIGC能力輔助創(chuàng)作的內(nèi)容相較于其他實時直播內(nèi)容，平臺不會給予特殊的流量扶持。”

事實上，C端看熱鬧，B端看門道，文生視頻大模型真正的落地仍在產(chǎn)業(yè)端。如Sora接入了海外主流的大語言模型，通過學(xué)習(xí)爆款視頻的文本結(jié)構(gòu)，生成適合商家產(chǎn)品的文案和腳本，并自動與商家提供的產(chǎn)品素材匹配，一鍵生成視頻。

而在我國，華為盤古大模型5.0的多模態(tài)能力包括了視頻生成技術(shù)，并面向產(chǎn)業(yè)端落地，據(jù)華為常務(wù)董事、華為云CEO張平安介紹，華為將視頻生成技術(shù)應(yīng)用到了自動駕駛的訓(xùn)練環(huán)節(jié)；而字節(jié)跳動旗下的即夢則深入影視行業(yè)，今年6月，官宣其和博納影業(yè)宣布聯(lián)合出品的AIGC科幻短劇集《三星堆：未來啟示錄》作為首席AI技術(shù)支持方，即夢AI基于豆包大模型技術(shù)，提供了AI劇本創(chuàng)作、鏡頭畫面生成等十種AI技術(shù)。

這也給可靈的應(yīng)用落地提供了參考路徑。顯然，在從“精神大模型”到“AI靈丹妙藥”的飛躍中，可靈還有一段路要走。

可靈快手

分享到：

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范，任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源；
2.TMT觀察網(wǎng)的原創(chuàng)文章，請轉(zhuǎn)載時務(wù)必注明文章作者和"來源：TMT觀察網(wǎng)"，不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任；
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。

麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

畫風(fēng)“快手味濃”、應(yīng)用前景不明朗：可靈難成快手“靈丹妙藥”快訊