恐替代你的崗位:谷歌邁步通用人工智能,AI世界模型Genie 3登場快訊
Genie 3 是第一個允許實時交互的世界模型,其世界模型還可以幫助人類體驗各種模擬訓練或探索,世界模型是實現 AGI 的關鍵步驟。
8 月 6 日消息,谷歌 DeepMind 官方昨日(8 月 5 日)發布博文,宣布推出名為 Genie 3 的“世界模型”,該模型能夠讓 AI 系統與逼真的現實世界模擬互動,朝著通用人工智能(AGI)邁出重要一步。
據谷歌介紹,Genie 3 可以用于訓練機器人和自動駕駛車輛,讓它們在與倉庫等環境的真實再現中互動。
谷歌 DeepMind 人工智能部門的專家認為,世界模型是實現 AGI 的關鍵步驟。AGI 是一種假想的人工智能水平,在這一水平上,系統不僅僅是下棋或翻譯語言等單一任務,而是能夠執行大多數任務,與人類相當,并可能取代某些工作崗位。DeepMind 表示,這些模型在開發自主執行任務的 AI 代理或系統中將發揮重要作用。
相比較前代模型(如 Genie 1/2)和視頻生成模型(如 Veo 2,Veo 3 對直覺物理學的深刻理解),Genie 3 是第一個允許實時交互的世界模型,同時與 Genie 2 相比,其一致性和真實感也得到了提升。
其核心能力包括:
模擬世界的物理特性: Genie 3 對物理規律有深刻理解,能逼真地模擬水流、光影變化以及復雜的環境互動,例如直升機在懸崖瀑布邊小心翼翼地機動
模擬自然世界:從冰川湖畔充滿生機的生態系統,到幻想世界中可愛的毛茸茸生物在彩虹橋上跳躍,Genie 3 能將想象力轉化為可探索的現實
動畫和小說建模:可以發揮想象力,創造奇幻的場景和富有表現力的動畫角色
探索不同地域與歷史場景:模型能超越地理和時間的限制,帶領用戶探索不同地點和歷史時代,無論是身穿翼裝飛越雪山,還是置身于歷史悠久的古城
突破實時性能的極限:實現高度的可控性和實時交互性,在每一幀的自回歸生成過程中,模型必須考慮先前生成的隨時間增長的軌跡。例如,如果用戶在一分鐘后重新訪問某個位置,則模型必須引用一分鐘前的相關信息。為了實現實時交互性,這種計算必須每秒進行多次,以響應新用戶輸入的到來
長時程環境一致性:為了讓人工智能生成的世界身臨其境,它們必須在很長一段時間內保持物理上的一致性。然而,自動回歸生成環境通常比生成整個視頻更難的技術問題,因為不準確之處往往會隨著時間的推移而累積,Genie 3 環境在幾分鐘內基本保持一致,視覺記憶可以追溯到一分鐘前,Genie 3 生成的世界更加動態和豐富,因為它們是根據用戶的世界描述和作逐幀創建的
可提示的世界事件 (Promptable World Events):除了導航輸入之外,Genie 3 還支持一種更具表現力的基于文本的交互形式,稱之為可提示的世界事件。可提示的世界事件可以改變生成的世界,例如改變天氣條件或引入新的物體和角色,從而增強導航控制的體驗,這種能力還增加了反事實或“假設”場景的廣度,代理可以使用這些場景從經驗中學習來處理意外情況
然而,谷歌表示 Genie 3 尚未準備好全面公開上市,并未給出具體的發布日期,同時還指出該模型存在一些局限性。這一聲明是在人工智能市場競爭日益激烈的背景下發布的。
谷歌表示,其世界模型還可以幫助人類體驗各種模擬訓練或探索,如滑雪或繞山湖漫步。DeepMind 表示,Genie 3 能夠根據文本提示立即創建場景,并且模擬環境可以快速更改,例如,通過文本提示在滑雪坡上引入一群鹿。
谷歌本周一向記者展示了 Genie 3 創建的滑雪和倉庫場景,但尚未公開模型。據《衛報》報道,這些模擬的質量與谷歌最新的視頻創作模型 Veo 3 相當,但它們持續的時間是 Veo 3 的八秒。
盡管 AGI 被視為可能消除白領工作,因為自主系統能夠執行從銷售代理到律師或會計師的各種角色,但谷歌認為世界模型是開發機器人和自動駕駛車輛的關鍵技術。例如,一個具有真實物理和人物的倉庫再現可以幫助訓練機器人,因為它在訓練中從模擬中“學習”,幫助它實現目標。(故淵)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。