智能手機的“大模型之戰”,蘋果加速進場快訊
OpenAI大模型幾乎能一字不差地輸出《紐約時報》的報道原文,蘋果公司還在開發自己的生成式人工智能模型,兩家公司應該銷毀任何使用到《紐約時報》版權材料的模型和訓練數據。
目前所有的主流智能手機廠商中,蘋果幾乎是唯一一家,還沒有正式發布大模型應用的廠商。
過去的2023年,華為率先將大模型接入手機,使得手機可以執行文本生成、知識查找、資料總結、智能編排、模糊/復雜意圖理解等復雜任務。之后,其他廠商迅速跟進,比如小米訓練出更為輕量級的語言大模型,參數規模為13億和60億兩種。小米內部認為,輕量級模型也有其存在的市場空間,這是端側大模型的特殊要求,也是一家智能設備廠商入局大模型的必經之路。
在此之后,vivo則推出了藍心大模型,同樣主打輕量化,利于進行手機本地化的數據處理;榮耀則在近日推出了自研端側70億參數平臺級AI大模型,并宣布與百度智能云達成戰略合作;幾乎是前后腳,OPPO也將首款70億參數大模型裝進新推出的Find X7上。三星則計劃2024年初發布的Galaxy S24系列手機中搭載大模型,旗下筆記本電腦、平板電腦也有可能集成該模型。
唯獨蘋果,對于iPhone何時將搭載大模型能力,目前還沒有確切的消息。一位業內人士向鈦媒體App表示,“與折疊屏一樣,蘋果對于新技術的應用,傾向于做好充足的準備后,才會正式推出。”蘋果公司CEO庫克曾解釋道,蘋果有計劃在更多產品中加入AI,但要“深思熟慮”。
不過,蘋果已經陸續展開了動作,比如推出了名為Ferret的多模態大語言模型,向新聞及出版機構購買內容版權。iPhone的“AI時刻”,正在加速到來。
追求更快的端側大語言模型
雖然蘋果還未公開詳細的大模型路線,但根據其發布的《閃存中的大型語言模型:在有限內存下高效的大型語言模型推理》論文,外界得以窺見蘋果的技術進展。
目前,大多數大型語言模型(LLM)都在具有強大服務器硬件支持的云端運營。想要將這類模型裝進手機,讓數據分析和推理在終端設備上直接完成,就需要智能手機擁有足夠大的內存。
但是,一個70億參數的模型就需要超過14GB的內存來加載半精度浮點格式的參數,這超過了大多數網絡端點的承受能力。即使通過量化壓縮模型,這對于終端設備的內存要求依然過大,且壓縮模型通常需要修改模型甚至完全重新訓練,也會對于模型的實際應用帶來影響。
根據上述論文內容,蘋果的研發人員似乎找到了突破方法——將模型參數存儲在閃存(手機固態硬盤)中,在需要的時候再將數據調入DRAM(手機內存),以此解決LLM運行時,數據處理量超過DRAM可用容量的的難題,不至于壓垮系統內存。
具體來說,蘋果主要運用了兩種技術:“窗口化”技術:重復使用此前激活過的神經元,以此減少數據傳輸;“行列捆綁”技術:針對閃存的數據特征,定制訪問數據塊的順序,從而增加從閃存讀取的數據塊大小。
研究人員表示,該方法“為在內存有限的設備上有效推理 LLM 鋪平了道路”。與CPU中的傳統加載方法相比,該框架支持DRAM兩倍大小的模型,在CPU和GPU中推理速度可分別提升4-5倍、20-25倍。
更保守的訓練策略
與利用爬蟲技術獲取大模型訓練數據的方式不同,蘋果的策略偏向保守。這家公司希望與新聞出版機構談判,尋求利用其內容開發生成式 AI 系統。
據報道,蘋果公司近期已經開始與主要新聞和出版機構進行談判,提出了價值至少5000萬美元的多年期協議,以獲得新聞文章檔案的授權。這些機構包括Condé Nast(出版《Vogue》和《紐約客》)、NBC 新聞和 IAC。
不過,《紐約時報》稱,出版商可能要承擔蘋果公司使用其內容產生的任何法律責任,而且蘋果公司對其新聞和生成式人工智能計劃“含糊其辭”。《紐約時報》還稱,蘋果公司高管一直在爭論如何獲取生成式人工智能產品所需的數據。由于注重隱私,蘋果公司一直不想從互聯網上獲取信息,因此與新聞出版商的交易,為其提供了一個另一種選擇方案。
蘋果保守的路線對于生成式AI的發展有利有弊,這一做法的好處是,通過在更有針對性的信息集訓練人工智能模型,蘋果最終可能會推出更可靠的產品;而弊端在于,蘋果大模型的推出時間會被延遲。
相較之下,OpenAI的做法則更激進。這家公司用于訓練chatgpt的數據,大部分來源于網絡信息,但這會導致信息的不準確,甚至出現虛假信息。同時,OpenAI與新聞機構的版權爭議,也是一個繞不開的問題。
比如,《紐約時報》在2023年12月就以“違法使用數據、抄襲”為由,起訴了OpenAI。《紐約時報》稱,OpenAI大模型幾乎能一字不差地輸出《紐約時報》的報道原文,而且這一輸出既沒有引用鏈接,還刪除了原文附加的返利鏈接,這直接影響了自身的流量和實際收入。
因此,《紐約時報》認為OpenAI和微軟應該為非法使用,需要對“價值數十億美元的法定和實際損失”負責。此外,兩家公司應該銷毀任何使用到《紐約時報》版權材料的模型和訓練數據。
當地時間1月8日,OpenAI在官網發布一篇聲明,回擊了《紐約時報》最近提起的版權侵權訴訟。OpenAI稱,《紐約時報》的證據來自已經在第三方網站流傳多年的文章:“他們似乎故意操縱了提示——要么指使模型反芻,要么從多次嘗試中精心挑選了示例”、“故意操縱我們的模型來反芻,不是對我們技術的適當使用,也違反了我們的使用條款。”
此前,OpenAI還表示,如果不使用受版權保護的內容,就不可能訓練當今領先的人工智能模型。
事實上,對OpenAI發起訴訟的不止有《紐約時報》。1月5日,兩位作家在一項集體訴訟中起訴OpenAI和微軟,指控將他們的書用于訓練大模型;去年9月,包括《權力的游戲》作者在內的數十位作家也提起了版權訴訟。
主動開源,全棧布局
與歷來封閉的iOS生態形成鮮明對比,蘋果的Ferret多模態大語言模型,是以開源方式發布的。這意味著,全球的工程師可以在Ferret的基礎上繼續發展,而Apple也可以從中獲益。
另一方面,為了讓開發者可以輕松構建針對Apple芯片優化的機器學習 (ML) 模型,蘋果還發布了名為MLX 的開發框架。它的與眾不同之處在于蘋果的靈活性,允許開發人員不受限制地選擇他們喜歡的編碼語言。
同時,MLX 可以利用蘋果M1 和 M2代芯片中存在的統一內存系統。也就是說,開發者可以通過CPU或GPU對內存中保存的陣列執行操作,無需將數據從一個移動到另一個。雖然節省的時間只是以毫秒為單位,但每一次節省的時間累積起來,將讓模型迭代得更快。
英偉達高級科學家Jim Fan表示,這可能是蘋果公司迄今為止在開源人工智能方面的最大舉措。
由于蘋果公司在開源MIT 許可下發布了其 MLX 機器學習框架,Apple 芯片的一些優勢也可以在計算量大的機器學習領域繼續保持。如同英偉達創建了自己的CUDA生態,讓自家GPU得以大規模應用,蘋果的MLX開發框架M系列芯片加上基礎大模型底座,蘋果在大模型時代可能同時具備軟件加硬件的全棧自研體系。
據報道,蘋果公司還在開發自己的生成式人工智能模型,稱為“Ajax”,相當于OpenAI 的 GPT-n 系列的版本。擁有2000億個參數的 Apple 大語言模型 ( LLM ) ,將成為蘋果未來人工智能戰略的核心,它的性能可能與OpenAI最新的模型相當。
Ajax將使蘋果能夠在其設備和應用程序生態系統中,支持新的 AI 集成和功能,而無需依賴Microsoft、OpenAI或Google等第三方模型提供商。
The Information 和蘋果分析師Jeff Pu表示,Apple在過去一年中一直在構建 AI 服務器,并將在 2024 年加快步伐。一位分析師估計,蘋果僅2023年就在服務器上花費了約6.2億美元。隨著蘋果加大在人工智能服務器領域的投入,預計 2024 年將在人工智能服務器上花費超過40億美元。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。