腳踢蘋果、拳打OpenAI,Google的AI安卓、AI搜索全來了快訊
Google搜索還將很快推出視頻搜索功能,Google發布了包括Gemini 1.5 Flash輕量級模型、Gemini 1.5 Pro進階版、視頻生成模型Veo、文生圖模型Imagen 3、音樂生成模型 Lyria等以及即將發布的下一代開源大模型Gemma 2,Gemini 1.5 Pro 可以對 Google AI Studio 中上傳的視頻進行圖像和音頻推理。

【TechWeb】5月15日消息,盡管OpenAI搶在Google I/O 2024大會之前發布了新的大模型和音視頻互動功能,但是今天,Google一口氣發布了20多項AI大招,算是狠狠扳回一局。
這些Google AI大招中,在應用端能很快就能讓用戶感知到的就有AI搜索和AI安卓系統等。
AI搜索
眾人期待的AI搜索并沒有在昨天OpenAI的發布會上亮相,而在今天Google I/O 2024大會,Google和Alphabet CEO Sundar Pichai花了長篇幅來介紹其最新的AI搜索。
這些AI搜索能力包括:
1、AI Overviews功能,相比傳統搜索引擎的結果,它為用戶呈現出完整的包括觀點、見解、鏈接的答案等。Google宣布即日起向每位美國用戶推出基于Gemini改進的搜索體驗,本周將向更多國家開放。

AI Overviews支持更復雜的搜索。
比如,你想找一個合適的普拉提工作室,需要同時考慮時間、價格、距離等因素。你可以在Google搜索輸入:“找到波士頓最好的瑜伽或普拉提工作室,告訴我他們的詳細介紹,以及從比肯山步行的時間。”
AI Overviews引入多步推理功能(Multi-step reasoning),把大問題分解為小部分,并判斷優先順序。
比如,搜索類似于“為一組人創建一個易于準備的3天膳食計劃”,你會得到一個從網上廣泛的食譜,還能直接將食譜中用到的食材等導出成購物清單。這意味著用戶僅需提問,就能將所需的一切加入購物車。
此外,Google搜索還將很快推出視頻搜索功能。例如,你在舊貨店買了一個唱機,但當你打開它時,它不工作了,帶針的金屬片出現了漂移。你可以錄制唱片機故障視頻并提問搜索如何解決,你會得到一個解決步驟和資源,以解決問題。
2、加持Gemini模型能力后更強的照片搜索(Ask Photos)功能;

使用該功能,用戶可以以自然的方式詢問您想要的內容。
例如:“給我看看我去過的每個國家公園里最好的照片。”Google Photos就會顯示你需要的哪些照片,節省了你滾動尋找的時間。
Ask Photos將在今年夏天推出。
此外,Google還表示,其AI搜索將很快推出多輪推理能力,可將復雜問題分解處理,將原本需要幾分鐘甚至幾個小時的研究壓縮到在幾秒鐘內完成,還將支持在搜索中對視頻提問等等。
AI安卓
也是在Google I/O 2024大會前一周,有外媒放風,稱蘋果正在考慮將OpenAI的技術整合到其下一代iPhone操作系統iOS 18中,并計劃在今年晚些時候為iPhone推出一些新功能時使用OpenAI的技術。
不過,關于蘋果和OpenAI合作的細節仍處于討論和計劃階段,具體合作內容和時間表尚未最終確定。
而在Google I/O 2024大會上,Google宣布把AI直接嵌入到了安卓操作系統中,打造AI安卓——“首個內置端側AI的移動操作系統”。并直接甩出了未來將要具體落地AI的安卓版本——安卓15 Beta 2。
這意味著,把Gemini用在安卓系統底層后,所有搭載安卓系統的手機,只要升級到安卓15 Beta 2及以后版本,都可能會享受到Google Gemini的AI能力。
一直以來,蘋果iOS生態自成一系,iOS系統的穩定好用是蘋果手機產品維持高價值的重要因素。
這次,Google率先將安卓系統和Gemini合體,AI安卓搶得先發優勢,壓力給到了蘋果iOS。
具體來看,在安卓上體驗Google AI的方式包括:
1、畫圈搜索(Circle to Search):也就是哪里不會圈住哪里。你可以用一個簡單的手勢圈住搜索手機上的任何東西——而不需要停止你正在做的事情或切換到不同的頁面。
例如,當學生圈出一個他們被卡住的提示時,他們會得到解決問題的一步一步的指示,而不需要離開當前頁面。
Circle to Search目前已經在超過1億臺設備上使用,有望在今年年底前將這一數字翻一番。
2、交互體驗:用戶將很快能夠在所在的應用程序上方調出 Gemini 的疊加層,以便更輕松地以更多方式使用 Gemini。

例如,您可以將生成的圖片拖放到Gmail、Google Messages和其他地方,或者點擊”詢問此視頻”,在YouTube視頻中查找特定信息。
該更新將在未來幾個月內推出到數以億計的設備。
3、Gemini Nano 的多模態功能將引入 TalkBack,幫助視力受損或低視力的人們獲得更豐富、更清晰的圖像描述。
Gemini系列大模型
當然,Google I/O 2024大會上最大的篇幅都是在講,能讓Google能夠腳踢蘋果iOS、拳打OpenAI的AI搜索背后的”大功臣“—— Gemini系列大模型。
會上,Google發布了包括Gemini 1.5 Flash輕量級模型、Gemini 1.5 Pro進階版、視頻生成模型Veo、文生圖模型Imagen 3、音樂生成模型 Lyria等以及即將發布的下一代開源大模型Gemma 2。
1、 Gemini 1.5 Flash:一個比 Gemini 1.5 Pro 更輕量級的模型,擁有 100 萬的上下文窗口,旨在快速高效地進行規模化服務。
Gemini 1.5 Flash 在總結摘要、聊天應用、圖像和視頻字幕生成以及從長文檔和表格中提取數據等方面表現出色。
2、Gemini 1.5 Pro:上下文窗口擴展到 200 萬個 tokens ,另外還通過數據和算法的進步增強了其代碼生成、邏輯推理和規劃、多輪對話以及音頻和圖像理解。
Gemini 1.5 Pro 可以對 Google AI Studio 中上傳的視頻進行圖像和音頻推理。同時,Gemini 1.5 Pro 已經整合到 Google 產品中,包括 Gemini Advanced 和 Workspace 應用程序。
目前,100 萬 tokens 上下文窗口的Gemini 1.5 Pro 和Gemini 1.5 Flash 目前都已在 Google AI Studio 和 Vertex AI 中發布公開預覽版。使用 API 的開發者和 Google Cloud 客戶還可以通過候補名單獲取 200 萬 tokens 上下文窗口的Gemini 1.5 Pro。
3、將在未來幾周內推出開源模型Gemma 2:Gemma 2 采用了一種新型架構,Gemma 2 27B性能媲美Llama 3 70B,尺寸不到Llama 3 70B的一半。
4、視頻模型 Veo:可以生成高質量的 1080p 分辨率視頻,時長可超過一分鐘。Veo 基于多年的生成視頻模型工作,包括生成查詢網絡(GQN),DVD-GAN,Imagen-Video,Phenaki,WALT,VideoPoet 和 Lumiere — 結合架構、scaling laws 和其他新穎技術,以提高質量和輸出分辨率。
5、高質量文生圖模型 Imagen 3:Google目前質量最高的文本到圖像模型,能夠生成具有更好細節、更豐富光線和比先前模型更少干擾性偽影的圖像。
6、音樂生成模型 Lyria:除了該模型外,還在開發一套AI音樂創作工具Music AI Sandbox。
還有更多模型,這里不一一列出了。有需要可以閱讀Google文檔。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。