端側大模型,手機廠商的下一次入口級機會快訊
」 如果大模型能夠在手機端運行,而在手機端通過手機助手運行大模型的方式調取這些數據,跟用戶交互的入口直接在被大模型驅動的手機助手中。
作者 | Li Yuan
編輯 | 鄭玄
過去幾個月,海內外的手機廠商紛紛入局,手機端大模型突然火了。
八月華為第一個宣布將大模型接入手機助手,小米、OV 緊隨其后。就連一向「慢半拍」的蘋果和三星,一個悄悄招人;一個則宣布會將大模型帶到最新的 Galaxy 旗艦機型。
上游的芯片廠和下游的應用開發者也在行動。過去兩個月里,高通和聯發科,相繼發布了能夠支持在手機端運行百億參數大模型的新一代手機芯片;Sam Altman 投資的 Humane,則在 11 月推出了 AI Pin,希望構建面向未來的操作系統。
大模型技術已經進入大眾視野一年了。在手機上使用基于大模型開發的應用——比如 ChatGPT、妙鴨相機等,對于大模型的第一批嘗鮮者來說,已經算不上新鮮。
看起來,用戶并不會在意手機上的大模型,到底是在云端還是本地運行。手機和芯片廠商花這么大的力氣推動大模型上手機,到底圖的又是什么?
01新的入口
手機廠商入局大模型的第一個目標,當然還是手機助手。
在大模型到來之前,手機助手受制于技術限制,智能能力不足,只有在特定提前寫好指令的任務上表現較好。而大模型的自然語言能力,讓手機助手的人機交互能力提升了一大截,大大提升了手機助手深度操控手機的能力。
「手機智能助手已經有好多年了,但是之前真的沒人用。」OPPO 高級副總裁劉作虎曾談到,「而大模型到來之后,未來手機一定是我們的超級助理,大模型可以帶來影像、操作、文生圖等多種體驗的提升,這在未來是確定性的。」
在 OpenAI 的近期的發布會中,曾經做了一項通過 Zapier 鏈接云端數據,調用用戶的數據,為用戶提供更加個性化服務的展示,而在手機端通過手機助手運行大模型的方式調取這些數據,甚至可能比云端更加直接。
「手機端有大量的短信記錄、個人照片、備忘錄、日程等,將這些數據變成向量數據庫,配合大模型的自然語言能力,就能進行更好的交互。」一位接近行業的人士告訴極客公園,「比如把用戶的日程做成了一個數據庫,離線保存在用戶本地。當用戶提問相關問題時,進行一個向量檢索算法,就可以利用大模型的能力做出更智能的回答。全部數據還都不會離開手機,保證隱私不會被泄露。」
在近期的發布中,手機公司都強調了這方面的能力。
VIVO 的藍心小 V,提到手機上萬張的圖片管理中,用戶可以嘗試直接以語義識別的方式說出照片的內容理解,讓小 V 在相冊中主動識別有對應內容的照片。
OPPO 的小布助手中,演示了小布助手幫用戶接聽電話并進行智能摘要的功能,當用戶不方便接聽電話時,小布助手可以直接幫用戶接聽電話,并將關鍵信息記錄下來。
而最早將大模型接入手機的華為小藝,還曾經提到過,小藝可以通過自然語言交流,直接幫用戶創建一個場景。比如「每周一到周五早上 6 點半播報當天天氣。戴上藍牙耳機的時候,就播放收藏的歌曲,并把手機設為靜音模式。」。
這樣深度操縱手機的內容的能力,需要需要公司內部對手機系統的各項功能進行重新梳理,將其做成標準化的接口提供給大模型進行操縱,顯然能夠大大提升手機的使用體驗。
另一位行業人士告訴極客公園,手機廠商在手機助手中部署大語言模型,背后的野心或許還不止于此。「原本所有的價值鏈都在應用內閉環。如果手機廠商有一個人工智能助手,理解用戶需求,控制和調用別的應用,那么除了用戶的體驗會變,手機廠商和第三方應用的關系會發生徹底的變化。」
在目前,這樣的應用控制已經在手機助手中初露端倪,尤其是在華為打造的鴻蒙系統中。在華為的展示中,用戶已經可以直接和小藝同學用自然語言交互,溝通自己的需求,而華為再通過元服務拉起相關的 app,滿足用戶需求。
「如果用戶接受了這套使用和交互邏輯,未來每個應用甚至都不用做太多自己的界面了,把自己的服務核心標準化后,跟用戶交互的入口直接在被大模型驅動的手機助手中。」這位接近行業的人士表示。「甚至隨著大模型控制 GUI 進展,比如微軟使用 GPT-4 Vision 控制 iOS 這樣的試驗進一步發展,系統可以直接模擬用戶點擊,控制 app。掌握智能入口的一方,能夠真正成為應用的入口。」
端側大模型,正是手機廠商實現這一野心的最佳工具。
首先,手機廠商通常不提供云服務,無法獲取廉價的云服務。而承接上億用戶的需求,背后需要大量的大模型算力支持。端側大模型,能夠讓手機廠商節省掉這一部分的開支,使商業計劃更加成立。
其次,手機廠商在利用端側 AI 中有很強的優勢。目前,無論是華為、小米還是 VIVO,采用的都是自研的大模型,可以在出廠前就與手機和芯片公司在底層上進行多次調整,與硬件達到最大限度的適配。在目前端側大模型十分依賴于內存的前提下,手機廠商也可以通過把內存優先供給于自己的終端大模型,來保證終端大模型的運行。
另外。因為運行在終端,大模型的延時和依賴于網絡狀態的不確定性也能大大降低,能更好地完成「助手」的服務。
「我們在網絡上看到的機器同聲傳譯,很多時候,機器還不能做到同聲,會一直在翻譯他前面的話。而用端側來做的話,同聲傳譯沒有延時。」小米 AI 實驗室主任王斌博士向極客公園表示。
02大模型上手機,還需要解決這些難點
華為、小米、VIVO 等許多公司目前都宣布了自己的手機助手已經具有了大模型能力,甚至已經開啟了內測。不過目前,手機助手中的大模型能力,并不完全來自于邊緣端推理,而是通常是端云結合的方式。
而在完全將大模型能力轉移到端側之前,入口級機遇,目前還很難實現。云端大模型的調用成本,會從根本上限制其盈利能力。Humane 推出 AI Pin,每月還需要交 24 美元的額外訂閱費,其中很大的原因,也是為了打平云端 AI 的調用成本。
但要想讓大模型上手機,目前還存在一些技術和產業的難點。
在大模型出現之前,手機作為一個邊緣計算設備,已經可以運行許多 AI 相關的算法,尤其是運行視覺算法對圖像進行處理,達到暗光拍攝、降噪、人臉解鎖等功能。
比如著名的華為 P30 Pro 手機拍攝月亮事件中,手機端就是通過 AI 算法,為拍攝的月亮生成更多細節,使照片呈現出單靠手機攝像頭無法呈現出的月球細節。
運行端側大模型的推理,與過去手機的 AI 算法,最主要的區別在于,大模型更「大」。
即使是小的大模型,參數通常也需要達到十億級,而普遍認為參數量達到 30 億之后,大模型的思維鏈能力將上一個臺階——這和手機原本運行的參數量大概相差一到兩個量級。
具體而言,大語言模型在端側運行,主要對運行內存產生了挑戰。
基于 Transformer 的架構的大模型,底層特點就是推理時,隨著對話變長,計算復雜度會增高,而計算成本會提高,推理速度下降,而內存的占用也變高了。
服務器中使用服務器級別的芯片,比如 A100 有 80G 顯存。即使用小規模的顯卡,V100,也有 32G 的顯存,可以防止模型跑的時候運行內存不夠。而手機芯片顯然遠遠達不到這樣的水平。
因此,目前的一個主流的做法是對模型進行量化。
在大模型內部,權重原本由浮點數存儲。例如,fp16 的模型,指的就是采用 2 字節 (16 bit) 進行編碼儲存訓練的模型,而 fp32 的模型,是采用 4 字節(32 bit)的編碼進行了儲存訓練的模型。
簡單說,將浮點數改為占用內存更低的整數儲存,就是量化。如果該量化從 32 bit 的儲存降低到 8 bit 的儲存,則整個大模型的內存占用可以降低 4 倍,而如果能夠再降低到 4 bit 的儲存,則會再降低兩倍。
不過,可以想見,進行量化之后,大模型的精度和能力同時也會下降。
接近行業的人士告訴極客公園,一個六七十億參數的模型,如果進行量化,大概占 2G-4G 運行內存不等,手機內可以運行。安卓的旗艦機,通常運行內存都能達到 16G 左右。
這也是高通等芯片公司努力研究的方向。「借助量化感知訓練和/或更加深入的量化研究,許多生成式 AI 模型可以量化至 INT4 模型。基于 transformer 的大語言模型,在量化到 8 位或 4 位權重后往往能夠獲得大幅提升的效率優勢。」高通 AI 產品技術中國區負責人萬衛星表示,「使用低位數整型精度對高能效推理至關重要。」
在模型層面,RWKV 團隊,也提出了一種另外的解決方式。RWKV 的大模型,不只基于 Transformer 架構,而是基于 RNN、CNN 架構對大模型進行了底層的改進,降低了模型的推理成本。
「不完全沿用 Transformer 架構的 RWKV,在用戶對話后,每次會儲存一個對話狀態,生成時通過這個狀態進行推理。這個狀態只會變化,而不會變大。因此即使對話狀態變長,或多個 agents 同時調用,RWKV 推理也不需要占用更多算力。性能不降,耗電也更友好。」RWKV CTO 劉瀟告訴極客公園。
RWKV 認為,這樣的大模型,有機會能在硬件能力更低的設備上運行。
極客公園近期得知,模型開發者 RWKV,目前已經推出了一款完全利用端側的 AI 聊天應用,可以在 GitHub 上下載,運行的是 RWKV 的 1.5B 的模型。
模型本身是一個不需要量化的無損失 fp16 版本。而這樣模型,對手機的要求卻并不高,手機內存只需要 6G 就可以,這遠遠低于目前安卓的旗艦機配置,RWKV 表示千元機就足以運行。
RWKV 目前擁有兩個端側可運行的模型,分別是 1.5b 和 3b,正在訓練 7b 的模型。開發者使用這樣的模型,可以構建對話應用,也可以調用 function,使用音樂模型可以構建音樂相關的應用,性能指標和效率指標在 RWKV 的測試中都處于領先位置。
RWKV 承認目前的架構下,對于對話上下文的準確性可能低于 Transformer 架構的模型,不過劉瀟提到,在終端 AI 的應用中,如果進行角色扮演、情感類的對話生成、內容創作這樣對出錯容忍度更高的任務,RWKV 極具優勢。
除了架構不同之外,RWKV 在芯片上的運行,也與普通的大模型有一些區別。
普通的大模型,主要需要在 GPU 中運行,而使用 NPU 對其進行加速,帶來更大的訪問帶寬和降低訪問延時。而 RWKV 的大模型除了可以這樣運行外,可以運行于 CPU 中。對不專門具有人工智能加速芯片的手機,這樣的運行方式可能是一個優勢。
一位接近行業的人士對 CPU 運行大模型評價到:「正常而言,有專用的 NPU 芯片來運行大模型會更好。大量的 OS 的基礎功能都在 CPU 上運行,如果算力越占越大是很危險的,系統可能會掛掉。」而 RWKV 在運行中不會增加內存占用的特性,使其能夠在 CPU 上更好的運行。
03端側大模型,是否能賦能開發者?
終端大模型已經是一個確定的趨勢了,但未來對手機的應用生態的影響仍然未可知。除了成為手機廠商的一個新的機遇外,端側大模型是否能夠賦能大模型應用的開發者?
對于開發者來說,使用端側模型,最直接的好處,自然是算力的費用能夠降低。
大模型創業者邱添接受極客公園采訪時,對節省算力成本表示期待:「省推理的算力其實能幫開發者省很多錢。比如租一臺 8 卡 A100 服務器的話,每個月可能就需要 6-8 萬元人民幣左右的預算,而且資源非常緊張,可能還需要排隊才能租到。」
如果大模型能夠在手機端運行,除了使用模型除了需要支付模型訓練的費用外,模型運行的算力費用相當于已經在用戶購買手機時提前支付了,算力的成本將大大節省。
算力成本的下降,將直接帶來許多原先可能并不成立的商業模式變得成立,比如 AI 陪伴服務。
目前,雖然有一些相關產品的發布,比如 OPPO 宣布未來將開放基于 AndesGPT 面向開發者的智能體開發平臺,手機公司將端側大模型 API 開放給開發者使用的場景目前尚未實現。
不過,即使手機廠商沒有開放端側模型的 API 給開發者,也并不代表開發者完全無法利用端側大模型的能力。
前述的 RWKV app 利用的方式是將大模型放進安裝包運行。這樣的運行模式,相對應的是,運行時如果內存占用過大,會面臨被系統「殺」掉的風險。
不過,受限于端側大模型的水平,能否使用端側大模型構建應用也要看應用本身對模型能力的要求。
邱添告訴極客公園,如果應用對大模型要求比較高,必須微調而不是使用提示詞工程的方式使用大模型的話,即使手機廠商開放了端側大模型的調用,應用可能也無法用其完成高質量的推理任務。部分應用可能對模型推理速度有要求,那么端側大模型目前的能力可能也比較難以滿足需求。
隨著終端大模型能力的增長,手機廠商是否會逐漸將終端大模型能力開放給開發者?還是將獨自壟斷新的入口級機遇?未來的商業變化值得期待。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。