久月婷婷,999在线视频,欧美日韩一二三区

OpenAI推出新一代AI模型GPT-4o 音頻視頻理解能力尚無敵手快訊

TechWeb.com.cn 2024-05-14 11:22

分享到：

導(dǎo)讀

OpenAI在周二凌晨推出能力更全面的GPT-4o，GPT-4o也是他們首個(gè)整合了個(gè)文本、音頻和視頻模式的模型，OpenAI訓(xùn)練一個(gè)跨文本、音頻和視頻的端到端新模型。

【TechWeb】5月14日消息，據(jù)外媒報(bào)道，在今日凌晨1點(diǎn)開始的春季更新中，OpenAI宣布了他們新一代的旗艦?zāi)Ｐ虶PT-4o，可以利用語音、視頻和文本信息進(jìn)行實(shí)時(shí)推理。

從OpenAI在官網(wǎng)上公布的信息來看，GPT-4o中的“o”源自“omni”，也就是全面、全能的意思，朝著更自然的人機(jī)交互又邁出了關(guān)鍵一步。

而GPT-4o也的確如名字中“omni”的全能一樣，是一款能力更全面的大語言模型，打通了文本、音頻和圖像，接受任何文本、音頻和視頻的組合輸入，并生成文本、音頻和視頻的組合輸出。

OpenAI在官網(wǎng)上披露，GPT-4o在英文文本和代碼中的表現(xiàn)與GPT-4 Turbo相當(dāng)，但在非英文文本上的能力大幅提升，在視頻和音頻的理解上，GPT-4o要明顯強(qiáng)于當(dāng)前的其他模型。

在官網(wǎng)上，OpenAI提到，在GPT-4o之前，通過語音模式同ChatGPT對話時(shí)，有較長時(shí)間的延遲，GPT-3.5平均為2.8秒，GPT-4平均為5.4秒。而由三個(gè)獨(dú)立模式組成的語音模式，也丟失了大量信息，無法直接識別音調(diào)、多個(gè)說話者或背景噪音，也無法輸出笑聲、歌唱或表達(dá)情感。

但在GPT-4o中，OpenAI訓(xùn)練一個(gè)跨文本、音頻和視頻的端到端新模型，所有的輸入和輸出都是由同一神經(jīng)網(wǎng)絡(luò)處理，GPT-4o也是他們首個(gè)整合了個(gè)文本、音頻和視頻模式的模型，

能力更全面的GPT-4o，響應(yīng)速度也更快，最快232毫秒響應(yīng)音頻輸入，平均響應(yīng)時(shí)間為320毫米，與人類在對話中的相應(yīng)速度相當(dāng)。

除了更強(qiáng)、更全面的能力，OpenAI也在推動(dòng)GPT-4o更廣泛的應(yīng)用。GPT-4o的文本和圖片功能自推出之日起就向ChatGPT推送，ChatGPT用戶可免費(fèi)使用，ChatGPT Plus用戶的數(shù)據(jù)量上限將是免費(fèi)用戶的5倍，新版本的音頻模式將在未來幾周向ChatGPT Plus用戶推送。

OpenAI周二凌晨1點(diǎn)開始的春季更新，是由CTO Mira Murati主持進(jìn)行，登臺的還有兩位研發(fā)人員，公司CEO薩姆?奧特曼并未登場。

不過，未現(xiàn)身直播的薩姆?奧特曼，在社交媒體上對GPT-4o也進(jìn)行了推廣。他在社交媒體上就表示，他們最新的模型GPT-4o，是他們到目前為止最好的模型，它很聰明、速度很快，是天然的多模態(tài)。

薩姆?奧特曼在社交媒體上也提到，GPT-4o對所有的ChatGPT用戶免費(fèi)，而此前GPT-4級別的模型僅對按月付費(fèi)的用戶免費(fèi)。

而值得注意的是，OpenAI在周二凌晨推出能力更全面的GPT-4o，無疑會(huì)給谷歌帶來更大的壓力，谷歌2024年度的I/O開發(fā)者大會(huì)，將在當(dāng)?shù)卦囻{周二開始，外界預(yù)計(jì)他們會(huì)推出大量人工智能相關(guān)的產(chǎn)品。(海藍(lán))

GPT- OpenAI 模型文本音頻

分享到：

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范，任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來源；
2.TMT觀察網(wǎng)的原創(chuàng)文章，請轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來源：TMT觀察網(wǎng)"，不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任；
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。

麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

OpenAI推出新一代AI模型GPT-4o 音頻視頻理解能力尚無敵手快訊