阿里云開源全模態模型Qwen2.5-Omni-7B,手機上就能部署快訊
導讀
在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數,Qwen2.5-Omni全維度遠超Google的Gemini-1.5-Pro等同類模型,Qwen2.5-Omni支持文本、圖像、音頻和視頻等多種輸入形式。
【TechWeb】3月27日消息,阿里云宣布通義千問Qwen2.5-Omni-7B正式開源。
Qwen2.5-Omni支持文本、圖像、音頻和視頻等多種輸入形式,并實時生成文本與自然語音合成輸出。
阿里云介紹,在權威的多模態融合任務OmniBench等測評中,Qwen2.5-Omni全維度遠超Google的Gemini-1.5-Pro等同類模型。在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數,均領先于專門的Audio或VL模型,且語音生成測評分數(4.51)達到了與人類持平的能力。

目前,Qwen2.5-Omni已在魔搭社區和Hugging Face 同步開源,開發者和企業可免費下載商用Qwen2.5-Omni,手機等終端智能硬件也可輕松部署運行。另外,用戶也可在Qwen Chat上直接體驗。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。