OpenAI向部分付費訂閱用戶開放GPT-4o語音模式,可提供更自然實時對話快訊
OpenAI 宣布即日起向部分 ChatGPT Plus 用戶開放 GPT-4o 的語音模式(注,OpenAI 公司原計劃今年 6 月底邀請一小部分 ChatGPT Plus 用戶測試 GPT-4o 語音模式,GPT-3.5 模型的平均語音反饋延遲為 2.8 秒。
7 月 31 日消息,當地時間 30 日,OpenAI 宣布即日起向部分 ChatGPT Plus 用戶開放 GPT-4o 的語音模式(注:Alpha 版本),并將于今年秋季逐步推廣至所有 ChatGPT Plus 訂閱用戶。
今年 5 月,OpenAI 首席技術官米拉?穆拉蒂(Mira Murati)在演講中提到:
在 GPT-4o 中,我們訓練了跨文本、視覺和音頻的端到端全新統一模型,這意味著所有輸入和輸出都由同一個神經網絡處理。
由于 GPT-4o 是我們第一個結合所有這些模式的模型,因此我們在探索該模型的功能及其局限性方面仍處于起步階段。
OpenAI 公司原計劃今年 6 月底邀請一小部分 ChatGPT Plus 用戶測試 GPT-4o 語音模式,但官方在 6 月宣布推遲,表示需要更多時間打磨該模型,提高該模型檢測和拒絕某些內容的能力。
根據此前曝光的信息,GPT-3.5 模型的平均語音反饋延遲為 2.8 秒,而 GPT-4 模型的延遲為 5.4 秒,因此在語音交流方面不太優秀,而即將推出的 GPT-4o 可以極大地縮短延遲時間,近乎無縫對話。
GPT-4o 語音模式具有快速反應、聲音堪比真人等特征,OpenAI 更稱 GPT-4o 語音模式可以感知語音中的情感語調,包括悲傷、興奮或歌唱。
OpenAI 發言人林賽?麥卡勒姆(Lindsay McCallum)表示:“ChatGPT 不能假冒他人的聲音,包括個人和公眾人物的聲音,并且會阻止與預設聲音不同的輸出。”(清源)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。