文小言上新:能方言交流、會(huì)拍照解題、能生成吉卜力風(fēng)圖片和視頻快訊
升級(jí)全新語(yǔ)音大模型、圖片問(wèn)答、AI生圖生視頻等多項(xiàng)能力,3、讓文小言生成吉卜力風(fēng)格圖片和視頻 在文小言app中選擇圖片創(chuàng)作,文小言實(shí)現(xiàn)了多模型間的智能協(xié)同。
【TechWeb】3月31日消息,在百度推出最新最強(qiáng)多模態(tài)大模型文心4.5和推理大模型文心X1后,今天百度旗下AI助手文小言APP正式功能升級(jí)。

此次升級(jí),文小言聚焦模型開(kāi)放與功能創(chuàng)新,支持多模型融合調(diào)度,升級(jí)全新語(yǔ)音大模型、圖片問(wèn)答、AI生圖生視頻等多項(xiàng)能力,為用戶(hù)帶來(lái)更智能、更高效的AI體驗(yàn)。
其中,文小言此次升級(jí)的核心亮點(diǎn)在于“多模型融合調(diào)度”。通過(guò)整合百度自研的文心X1、文心4.5等頂尖模型,并接入DeepSeek-R1、可靈等第三方優(yōu)質(zhì)模型,文小言實(shí)現(xiàn)了多模型間的智能協(xié)同。
接入全新的端到端語(yǔ)音語(yǔ)言大模型后,文小言不僅能支持更擬真的語(yǔ)聊效果,而且支持重慶、廣西、河南、廣東、山東等特色方言。據(jù)介紹,語(yǔ)音大模型具備極低的訓(xùn)練和使用成本,極快的推理響應(yīng)速度,語(yǔ)音交互時(shí),可將用戶(hù)等待時(shí)長(zhǎng)從行業(yè)常見(jiàn)的3-5秒降低至1秒左右。
圖片問(wèn)答功能讓用戶(hù)可以通過(guò)拍攝或上傳圖片,以文字或語(yǔ)音提問(wèn)直接獲取深度解析。
目前,以上這些大模型能力,用戶(hù)在文小言APP內(nèi)選擇“自動(dòng)模式”,即可一鍵調(diào)用最優(yōu)模型組合,也可以根據(jù)需求靈活選擇單一模型完成特定任務(wù)。

從用戶(hù)角度來(lái)看,目前的文小言不僅能聽(tīng)得懂方言、能跟用戶(hù)直接方言交流外,還可以“化身”老師解題答疑。
最近,OpenAI的多模態(tài)大模型GPT-4o因能生成吉卜力動(dòng)漫風(fēng)的圖片而大受追捧。現(xiàn)在,文小言不僅能通過(guò)文生圖來(lái)生成吉卜力風(fēng)的圖片,還能生成該風(fēng)格的視頻。
百度AI產(chǎn)品創(chuàng)新業(yè)務(wù)負(fù)責(zé)人薛蘇強(qiáng)調(diào):“AI的未來(lái)不再是單純的技術(shù)參數(shù)比拼,而是如何通過(guò)多模型協(xié)同,真正為用戶(hù)創(chuàng)造價(jià)值。文小言希望通過(guò)開(kāi)放生態(tài),整合頂尖模型能力,做出更強(qiáng)大、更簡(jiǎn)單的AI產(chǎn)品。”

那么就一起來(lái)看看文小言的表現(xiàn):
1、讓文小言設(shè)計(jì)三種風(fēng)格的南偏東客廳效果圖
文小言能夠精準(zhǔn)解析裝修風(fēng)格差異,調(diào)用文心X1完成深度推理,生成三幅風(fēng)格迥異但視角一致的裝修效果圖,圖文混排專(zhuān)業(yè)講解,效果更直觀。


2、拍攝一道數(shù)學(xué)題,讓文小言解題

將上述數(shù)學(xué)題用文小言拍照輸入,文小言就給出了一下解答結(jié)果。
還實(shí)時(shí)生成了一個(gè)由數(shù)字人講解的解說(shuō)視頻。

3、讓文小言生成吉卜力風(fēng)格圖片和視頻
在文小言app中選擇圖片創(chuàng)作,或者直接在對(duì)話(huà)框中輸入希望生成的圖片的描述,
例如:
請(qǐng)畫(huà)一個(gè)宮崎駿風(fēng)格圖片,比例為9:16,內(nèi)容為個(gè)女孩站在盛開(kāi)的櫻花樹(shù)下,身旁有小貓咪。女孩扎著麻花辮,仰頭望向櫻花樹(shù),欣賞飄落的櫻花。背景是戶(hù)外鄉(xiāng)村環(huán)境,有一棵櫻花樹(shù),粉色櫻花密集綻放,本古樸木屋。地面上綠草如茵,
整體氛圍清新、寧?kù)o、美好,充滿(mǎn)春日的生機(jī)與愜意。

文小言就會(huì)生成2張相關(guān)圖片。

然后,選擇“視頻生成”按鈕,文小言就能根據(jù)圖片生成一段5s中的小視頻。

4、講方言
文小言會(huì)說(shuō)多種方言,包括重慶話(huà)、河南話(huà)、廣西話(huà)等都能聊。可以去聽(tīng)一聽(tīng)它講得怎么樣。

百度語(yǔ)音首席架構(gòu)師賈磊透露,文小言接入了百度在業(yè)界首個(gè)推出、基于全新互相關(guān)注意力(Cross-Attention)的端到端語(yǔ)音語(yǔ)言大模型。在語(yǔ)音場(chǎng)景滿(mǎn)足一定交互指標(biāo)下,大模型調(diào)用成本比行業(yè)平均降低50%-90%,推理響應(yīng)速度極快,將語(yǔ)音交互等待時(shí)間壓縮至1秒左右,極大提升了交互流暢性。同時(shí),在大模型加持下,實(shí)現(xiàn)了流式逐字的LLM驅(qū)動(dòng)的多情感語(yǔ)音合成,情感飽滿(mǎn)、逼真、擬人,交互聽(tīng)感也得到極大提升。(宜月)
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為T(mén)MT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。