準確率接近真人,字節跳動發布端到端同聲傳譯模型 Seed LiveInterpret 2.0快訊
Seed LiveInterpret 2.0 還支持 0 樣本聲音復刻,智能平衡翻譯質量、延遲和語音輸出節奏,是首個延遲 & 準確率接近人類水平的產品級中英語音同傳系統。
IT之家 7 月 24 日消息,今天,字節跳動 Seed 團隊正式發布端到端同聲傳譯模型 Seed LiveInterpret 2.0,是首個延遲 & 準確率接近人類水平的產品級中英語音同傳系統。
據官方介紹,它基于全雙工端到端語音生成理解框架,支持中英互譯,可實時處理多人語音輸入,像人類同傳譯員一樣以極低的延遲“邊聽邊說”,一邊接收源語言語音輸入,一邊直接輸出目標語言的翻譯語音。同時,Seed LiveInterpret 2.0 還支持 0 樣本聲音復刻,讓溝通更加流暢自然。
在測試中,可以觀察到,Seed LiveInterpret 2.0 面對 40 秒的大段中文表達,能夠低延遲地絲滑輸出同款音色的英語翻譯。此外,Seed LiveInterpret 2.0 還能快速學習音色。
相比傳統機器同傳系統,Seed LiveInterpret 2.0 模型具備以下優勢:
接近真人同傳的翻譯準確率。精準的語音理解能力保障了翻譯準確度,在多人會議等復雜場景中英雙向翻譯準確率超 70%,單人演講翻譯準確率超 80%,接近真人專業同傳水平。
極低延遲的“邊聽邊說”能力。采用全雙工語音理解生成框架,翻譯延遲可低至 2-3 秒,較傳統機器同傳系統降低超 60%,實現了真正的“邊聽邊說”翻譯。
零樣本聲音復刻,音色真實自然。只需采樣實時語音信號,便能提取聲音特征,用說話人的音色特質實時“說出”外語,提升交流的沉浸感和親和力。
智能平衡翻譯質量、延遲和語音輸出節奏。可根據語音清晰度、流暢度、復雜程度,調整輸出節奏,并適配不同語言特性。面對超長信息,依然能保證傳譯語音節奏的自然流暢。
IT之家注意到,目前 Seed LiveInterpret 2.0 技術報告已公布,模型基于火山引擎對外開放。此外,Ola Friend 耳機也將在 8 月底接入 Seed LiveInterpret 2.0,成為首個支持該模型的智能硬件設備。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。