輔助駕駛,如何從「猴子」進(jìn)化到「人類」快訊
理想訓(xùn)練 VLA 模型算法的更迭也跟生成數(shù)據(jù)息息相關(guān),「端到端+ VLM 視覺語言模型」是輔助駕駛的「猴子時(shí)期」,通過數(shù)據(jù)流程、數(shù)據(jù)平臺(tái)和算法迭代提升自動(dòng)駕駛能力。
去年,今年,同個(gè)時(shí)間,同個(gè)地點(diǎn),我們向理想汽車提出同個(gè)問題:
自動(dòng)駕駛的終極答案究竟是什么?
去年,愛范兒和董車會(huì)在理想北京研發(fā)中心與理想輔助駕駛團(tuán)隊(duì)進(jìn)行了一場(chǎng)交流,正值理想輔助駕駛的新技術(shù)架構(gòu)「端到端+ VLM 視覺語言模型」即將上車,團(tuán)隊(duì)當(dāng)時(shí)的表述是:
「端到端+ VLM 視覺語言模型」背后的理論框架,是自動(dòng)駕駛的「終極答案」。
隨著「端到端+ VLM 視覺語言模型」的技術(shù)架構(gòu)過渡到了 VLA(Vision-Language-Action,視覺語言動(dòng)作模型),我們離「終極答案」又進(jìn)了一步。
按照李想和理想輔助駕駛團(tuán)隊(duì)的說法,這是理想輔助駕駛能力從「猴子」階段,進(jìn)化到「人類」階段的關(guān)鍵一步。
今天,我們又來到了理想北京研發(fā)中心,繼續(xù)和理想輔助駕駛團(tuán)隊(duì)聊這個(gè)領(lǐng)域的新動(dòng)向。
輔助駕駛里,猴子和人類有什么區(qū)別?
去年理想輔助駕駛方案切換到「端到端+ VLM 視覺語言模型」之前,采用的是業(yè)界通用的 「感知 Perception — 規(guī)劃 Planning — 控制 Control」技術(shù)架構(gòu),這個(gè)架構(gòu)依賴工程師根據(jù)現(xiàn)實(shí)各種各樣的交通情況來編寫對(duì)應(yīng)的規(guī)則指導(dǎo)汽車的控制,但難以窮盡現(xiàn)實(shí)所有交通情況。
這是輔助駕駛的「機(jī)械時(shí)期」,輔助駕駛只會(huì)應(yīng)付有對(duì)應(yīng)規(guī)則的情況,沒有思考和學(xué)習(xí)的能力。
「端到端+ VLM 視覺語言模型」是輔助駕駛的「猴子時(shí)期」,相比于機(jī)械,猴子要更聰明,也有一些模仿和學(xué)習(xí)的能力,當(dāng)然,猴子也更好動(dòng)更不聽話。「端到端+ VLM 視覺語言模型」的本質(zhì)就是「模仿學(xué)習(xí)」,依賴大量人類駕駛數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)的數(shù)量和質(zhì)量決定性能。并且因?yàn)榘踩紤],在這個(gè)架構(gòu)中,負(fù)責(zé)復(fù)雜場(chǎng)景的 VLM 視覺語言模型并不能參與控車,只是提供決策和軌跡。
VLA(Vision-Language-Action,視覺語言動(dòng)作模型)則是輔助駕駛的「人類時(shí)期」,擁有了「能思考、能溝通、能記憶、能自我提升」的能力。
猴子經(jīng)歷了漫長(zhǎng)的變化才變成人類,理論上「端到端+ VLM 視覺語言模型」的「模仿學(xué)習(xí)」也可以在漫長(zhǎng)的歲月里學(xué)會(huì)人類幾乎所有的駕駛數(shù)據(jù),做到行為上幾乎像個(gè)人。
但代價(jià)就是「時(shí)間」。
理想汽車自動(dòng)駕駛研發(fā)高級(jí)副總裁郎咸朋說:
我們?nèi)ツ陮?shí)際的端到端 MPI(平均接管里程),去年 7 月份第一個(gè)版本 MPI 大概在十幾公里,當(dāng)時(shí)已經(jīng)覺得挺不錯(cuò)的,因?yàn)槲覀兊臒o圖版本迭代了很長(zhǎng)時(shí)間,綜合 MPI(高速+城市)也就 10 公里左右。
從 100 萬到 200 萬 Clips(用于訓(xùn)練端到端輔助駕駛的視頻片段),再到 1000 萬Clips,隨著數(shù)據(jù)量上升,今年年初,MPI 達(dá)到 100 公里,7 個(gè)月 MPI 翻了 10 倍,平均一個(gè)月翻一點(diǎn)幾倍。
但是到了 1000 萬 Clips 之后,我們發(fā)現(xiàn)一個(gè)問題,只增長(zhǎng)數(shù)據(jù)量是沒有用的,有價(jià)值的數(shù)據(jù)越來越少。這就跟考試一樣,不及格的時(shí)候,隨便學(xué)一學(xué)分就提升非常快。當(dāng)考到八九十分了,再往上提 5 分、10 分,是很難的。
這時(shí)候我們使用了超級(jí)對(duì)齊,強(qiáng)制讓模型輸出符合人類要求的結(jié)果。另外,我們也篩選了一些數(shù)據(jù)補(bǔ)充到超級(jí)對(duì)齊里,讓模型能力進(jìn)一步提升,這樣做是有一定效果的,但我們大概從今年 3 月份到 7 月底,花了 5 個(gè)月時(shí)間,模型性能才提升了 2 倍左右。
這是「端到端+ VLM 視覺語言模型」技術(shù)架構(gòu)在飛速進(jìn)步后遇到的第一個(gè)問題:越往后,有用數(shù)據(jù)越稀少,模型性能進(jìn)步的速度也越慢。
而其本質(zhì)問題也隨之暴露出來,郎咸朋說:
本質(zhì)來看,現(xiàn)在端到端的這套模仿學(xué)習(xí)并不具備深度的邏輯思考能力,就像猴子開車一樣。喂猴子一些香蕉,它可能會(huì)按照你的意圖做一些行為,但并不知道自己為什么要做這些行為,一敲鑼它就過來,一打鼓它就跳舞,但不知道為什么要跳舞。 所以說端到端架構(gòu)不具備深度思考能力,頂多算是一個(gè)應(yīng)激反應(yīng),就是給一個(gè)輸入,模型給一個(gè)輸出,這背后沒有深度邏輯。
這也是為什么要在端到端大模型之外再加一個(gè) VLM 視覺語言模型的緣故,VLM 視覺語言模型具有更強(qiáng)的理解和思考能力,能提供更好的決策。但這個(gè)模型一是思考得慢,二是和端到端大模型耦合得不夠深,很多時(shí)候端到端大模型理解和接受不了 VLM 視覺語言模型的決策。
去年這個(gè)時(shí)候,理想輔助駕駛團(tuán)隊(duì)就說過:
以后兩個(gè)趨勢(shì),第一是模型規(guī)模變大,系統(tǒng)一和系統(tǒng)二現(xiàn)在還是端到端加 VLM 兩個(gè)模型,這兩個(gè)模型有可能合一,目前是比較松耦合,將來可以做比較緊耦合的。第二方面也可以借鑒現(xiàn)在多模態(tài)模型的大模型發(fā)展趨勢(shì),它們就朝這種原生多模態(tài)走,既能做語言也能做語音,也能做視覺,也能做激光雷達(dá),這是將來要思考的事情。
趨勢(shì)很快就變成了現(xiàn)實(shí)。
郎咸鵬也說了為什么要從端到端+VLM 切換到 VLA 的原因:
去年做端到端的時(shí)候一直也在反思,是不是端到端就夠了,如果不夠的話我們還需要再做什么。 我們一直在做 VLA 的一些預(yù)研,其實(shí) VLA 的預(yù)研代表的是我們對(duì)人工智能的理解并不是一個(gè)模仿學(xué)習(xí),一定像人類一樣是有思維的,是有自己推理能力的,換句話說它一定要去有能力解決它沒有見過的事情或未知的場(chǎng)景,因?yàn)檫@個(gè)在端到端里可能有一定的泛化能力,但并不是足以說有思維。
就像猴子一樣,它可能也會(huì)做出一些你覺得超越你想象的事情,但它不會(huì)總做出來,但人不是,人是可以成長(zhǎng)的、可以迭代的,所以我們一定要按照人類的智能發(fā)展方式去做我們的人工智能,我們就很快從端到端切換到 了VLA 方案去做。
VLA(Vision-Language-Action,視覺語言動(dòng)作模型)就是去年的趨勢(shì)思考,以及當(dāng)下成為現(xiàn)實(shí)的技術(shù)架構(gòu)。
雖然 VLA 和 VLM 就差了一個(gè)字母,但內(nèi)涵差異非常大。
VLA 的 Vision 指各種傳感器信息的輸入,也包括導(dǎo)航信息,能夠讓模型對(duì)空間有理解和感知。
VLA 的 Language 指模型會(huì)把感知到的空間理解,像人一樣總結(jié)、翻譯、壓縮、編碼成一個(gè)語言表達(dá)出來。
VLA 的 Action 是模型根據(jù)場(chǎng)景的編碼語言,生成行為策略,把車開起來。
直觀的差異就是,人可以用語言去控車,說話就可以讓車慢點(diǎn)快點(diǎn)左轉(zhuǎn)右轉(zhuǎn),這主要是 Language 部分的功勞,人的指令大模型收到的 prompt,VLA 模型內(nèi)部的指令也是 prompt,等于是打通了人和車。
此外,視覺和行為之間,也沒有阻礙了,從視覺信息輸入到控車行為輸出的速度和效率都大大加快,VLM 慢,端到端不理解 VLM 的問題被解決了。
更顯著的差別是思維鏈(Chain of Thought,CoT)能力,VLA 模型的推理頻率達(dá)到了 10Hz,比 VLM 的推理速度快了 3 倍多,同時(shí)對(duì)環(huán)境的感知和理解更充分,可以更快更有理有據(jù)地進(jìn)行思維推理,生成駕駛決策。
除了思維能力和溝通能力之外,VLA 也具備一定的記憶能力,可以記住車主的偏好和習(xí)慣;以及相當(dāng)強(qiáng)的自主學(xué)習(xí)能力。
理想輔助駕駛的《飛馳人生》
現(xiàn)實(shí)世界里,人類想要成為老司機(jī),肯定先得去報(bào)個(gè)駕校考個(gè)駕照,然后貼「實(shí)習(xí)標(biāo)」蹣跚上路,在真實(shí)道路上開幾年時(shí)間。
此前輔助駕駛的訓(xùn)練也是如此,不光需要真實(shí)世界里的行駛數(shù)據(jù)用作訓(xùn)練,也需要在真實(shí)世界里進(jìn)行大量的路試。
在一些小說里,有些天賦異稟的選手可以通過讀書,讀成武力境界超高的實(shí)戰(zhàn)高手,比如《少年歌行》里的「儒劍仙」謝宣,《雪中悍刀行》里的軒轅敬城。
但是在傳統(tǒng)武俠小說里,只會(huì)有《天龍八部》里王語嫣這樣精通武學(xué)典籍,自身卻是毫無實(shí)戰(zhàn)能力的戰(zhàn)五渣。
當(dāng)然,也有介于中間態(tài)的情況:在賽車電影《飛馳人生》里,落魄賽車手張弛在腦海里不斷復(fù)現(xiàn)巴音布魯克地區(qū)的復(fù)雜賽道情況,每天在腦海里開 20 遍,5 年模擬開了 36000 多遍,然后回到真實(shí)賽道的時(shí)候,成為了冠軍。
虛擬開車,不斷精進(jìn),超越自己過去的最好成績(jī),這是「算法」。
不過張弛回歸賽道,再次成為冠軍車手之前就已經(jīng)在這條賽道多次證明過自己,積累了大量的實(shí)際駕駛經(jīng)驗(yàn)。
實(shí)車實(shí)路,積累經(jīng)驗(yàn),直到了解這條賽道所有的路況,這是「數(shù)據(jù)」。
郎咸朋說,想要做好 VLA 模型,需要四個(gè)層面的能力:數(shù)據(jù),算法,算力和工程能力。
理想強(qiáng)調(diào)自己數(shù)據(jù)多,數(shù)據(jù)優(yōu)秀,數(shù)據(jù)庫(kù)好,以及數(shù)據(jù)標(biāo)注和數(shù)據(jù)挖掘準(zhǔn)已經(jīng)很久了,關(guān)于數(shù)據(jù),理想也有新技能:生成數(shù)據(jù)訓(xùn)練。
通過世界模型進(jìn)行場(chǎng)景重建,然后在重建的真實(shí)數(shù)據(jù)之上,舉一反三,生成相似場(chǎng)景,比如理想在世界模型里重建一個(gè)出高速 ETC 的場(chǎng)景,在這個(gè)場(chǎng)景下,不僅可以用原來的真實(shí)數(shù)據(jù)情況,比如白天晴朗地面干燥,也可以生成出白天大雪地面濕滑,夜晚小雨能見度不佳等等場(chǎng)景。
理想訓(xùn)練 VLA 模型算法的更迭也跟生成數(shù)據(jù)息息相關(guān),郎咸朋介紹說:
2023 年我們還沒做端到端,一年用實(shí)車的有效測(cè)試?yán)锍檀蟾?157 萬公里,每公里花 18 塊錢。 我們開始做端到端的時(shí)候,就有一部分在做仿真測(cè)試了,2024 年全年的仿真測(cè)試仿了 500 萬公里左右,實(shí)車也測(cè)了 100 多萬公里,平均下來成本降到了 5 塊錢一公里不到,差不多也是花了 3000 萬左右。但是同樣花 3000 萬,我能測(cè) 600 萬公里了。
今年半年時(shí)間(1 月 1 日-6 月 30 日),我們測(cè)了 4000 萬公里,實(shí)車只有 2 萬公里,就跑一些基本的場(chǎng)景。所有的測(cè)試,大家看到的超級(jí)對(duì)齊、現(xiàn)在的 VLA,我們都是用仿真測(cè)的,5 毛錢一公里,就是付個(gè)電費(fèi),付個(gè)服務(wù)器的費(fèi)用。并且測(cè)試質(zhì)量還高,所有的 case、所有的場(chǎng)景都能舉一反三,可以完全復(fù)測(cè),分毫不差。我們的測(cè)試?yán)锍潭嗔耍瑴y(cè)試質(zhì)量好了,研發(fā)效率就提升了。 所以很多人質(zhì)疑我們不可能用半年做個(gè) VLA,測(cè)都測(cè)不過來,實(shí)際上我們測(cè)試非常多。
仿真測(cè)試的優(yōu)點(diǎn)除了成本低之外,還能完美復(fù)現(xiàn)場(chǎng)景,真實(shí)場(chǎng)景測(cè)試情況下,一個(gè)場(chǎng)景很難被 100% 還原,對(duì)于 VLA 模型來說,場(chǎng)景復(fù)現(xiàn)差之毫厘,駕駛表現(xiàn)可能就失之千里。
以此而言,理想訓(xùn)練 VLA 模型的形式,與電影《飛馳人生》里主角在真實(shí)駕駛經(jīng)驗(yàn)基礎(chǔ)上,不斷地虛擬訓(xùn)練的模式,有一些類似。
當(dāng)然,最后 VLA 模型的訓(xùn)練,也需要背后巨大算力的支撐,理想現(xiàn)在的總算力為 13EFLOPS,其中 3EFLOPS 給了推理,10EFLOPS 給了訓(xùn)練。換算成顯卡數(shù)量,是等效 2 萬張英偉達(dá) H20 用作訓(xùn)練,等效 3 萬張英偉達(dá) L20 用于推理。
關(guān)鍵 Q&A
Q:智能輔助駕駛存在一個(gè)「不可能三角」,也就是效率、舒適和安全三個(gè)目標(biāo)之間是互相制約的,目前階段可能難以同時(shí)實(shí)現(xiàn)。理想汽車的 VLA 目前在當(dāng)前階段最先優(yōu)化的指標(biāo)是哪一個(gè)?剛剛提及到 MPI,是否可以理解為目前理想汽車最終的指標(biāo)是提升安全性以有效減少接管?
郎咸朋:MPI 是我們衡量的指標(biāo)之一,還有一個(gè)指標(biāo)是 MPA,也就是指發(fā)生事故的里程,理想車主的人駕數(shù)據(jù)是 60 萬公里左右出一次事故,而在使用輔助駕駛功能的情況下是 350 到 400 萬公里發(fā)生一次事故。這個(gè)里程數(shù)據(jù)我們還會(huì)持續(xù)提升,我們的目標(biāo)是將 MPA 能提升到人類駕駛的 10 倍,也就是比人駕安全 10 倍,做到 600 萬公里才出一次事故,但這必須等到 VLA 模型提升之后才能做到。
針對(duì) MPI,我們也做過分析,可能一些安全風(fēng)險(xiǎn)問題會(huì)導(dǎo)致接管,但有時(shí)候舒適度不好也會(huì)導(dǎo)致接管,比如急剎、重剎等,因?yàn)椴⒉灰欢看味紩?huì)遇到安全風(fēng)險(xiǎn),但是如果駕駛舒適度不好,用戶依然不想用輔助駕駛功能。因?yàn)?MPA 可以衡量安全性,在 MPI 方面,除了安全性之外,我們重點(diǎn)提升了行車舒適度,如果體驗(yàn)了理想 i8 的輔助駕駛功能,會(huì)體驗(yàn)到舒適度比之前的版本有很大提升。
效率是排在安全和舒適之后的,比如走錯(cuò)路,雖然效率有所損失,但我們不會(huì)通過一些危險(xiǎn)的動(dòng)作立刻糾正,還是要在安全和舒適的基礎(chǔ)上去追求效率。
Q:VLA 模型的難點(diǎn)在哪里?對(duì)企業(yè)的要求是什么?如果一個(gè)企業(yè)想要落地VLA模型會(huì)面臨哪些挑戰(zhàn)?
郎咸朋:曾經(jīng)也有很多人問過如果車企想做 VLA 模型是不是可以跳過前面的規(guī)則算法,跳過端到端階段,我認(rèn)為是不行的。雖然 VLA 的數(shù)據(jù)、算法等可能跟之前不太一樣,但是這些仍然是要建立在之前的基礎(chǔ)上的,如果沒有完整的通過實(shí)車采集的數(shù)據(jù)閉環(huán),是沒有數(shù)據(jù)能夠去訓(xùn)練世界模型的。理想汽車之所以能夠落地 VLA 模型,是因?yàn)槲覀冇?12 億數(shù)據(jù),只有在充分了解這些數(shù)據(jù)的基礎(chǔ)上,才能夠更好的生成數(shù)據(jù)。如果沒有這些數(shù)據(jù)基礎(chǔ),首先不能訓(xùn)練世界模型,其次也不清楚要生成什么樣的數(shù)據(jù)。
同時(shí),基礎(chǔ)訓(xùn)練算力和推理算力的支撐需要大量資金和技術(shù)能力,如果沒有之前的積累是不能完成的。
Q:今年理想實(shí)車測(cè)試是 2 萬公里,請(qǐng)問大幅減少實(shí)車測(cè)試的依據(jù)是什么?
郎咸朋:我們認(rèn)為實(shí)車測(cè)試有很多問題,成本是其中一方面,最主要的是我們?cè)跍y(cè)試驗(yàn)證一些場(chǎng)景時(shí)不可能完全復(fù)現(xiàn)發(fā)生問題時(shí)的場(chǎng)景。同時(shí),實(shí)車測(cè)試的效率太低了,在實(shí)車測(cè)試過程中要開過去之后再?gòu)?fù)測(cè)回來,我們現(xiàn)在的仿真效果完全可以媲美實(shí)車測(cè)試,現(xiàn)在的超級(jí)版本和理想 i8 的 VLA 版本中 90% 以上的測(cè)試都是仿真測(cè)試。
從去年端到端版本我們就已經(jīng)開始進(jìn)行仿真測(cè)試的驗(yàn)證,目前我們認(rèn)為它的可靠性和有效性都很高,所以我們以此替代了實(shí)車測(cè)試。但仍有一些測(cè)試是無法替代的,比如硬件耐久測(cè)試,但和性能相關(guān)的測(cè)試我們基本上會(huì)使用仿真測(cè)試替代,效果也非常好。
工業(yè)時(shí)代來臨后,刀耕火種的流程被機(jī)械化替代;信息時(shí)代后,網(wǎng)絡(luò)替代了大量工作。在自動(dòng)駕駛時(shí)代也是一樣,端到端時(shí)代來臨后,我們進(jìn)入了使用 AI 技術(shù)做自動(dòng)駕駛的方式,從雇傭大量工程師、算法測(cè)試人員,到數(shù)據(jù)驅(qū)動(dòng),通過數(shù)據(jù)流程、數(shù)據(jù)平臺(tái)和算法迭代提升自動(dòng)駕駛能力。而進(jìn)入了 VLA 大模型時(shí)代,測(cè)試效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影響快速迭代的因素迭代掉,如果這其中仍有大量的實(shí)車和人工介入,速度是會(huì)降低的。并不是我們一定要替代實(shí)車測(cè)試,而是這項(xiàng)技術(shù),這個(gè)方案本身就要求要使用仿真測(cè)試,如果不這樣做,并不是在做強(qiáng)化學(xué)習(xí),并不是在做 VLA 模型。
Q:VLA 其實(shí)沒有顛覆端到端+VLM,所以是否可以理解成 VLA 是偏向于工程能力的創(chuàng)新?
詹錕(理想汽車自動(dòng)駕駛高級(jí)算法專家):VLA 不只是工程方面的創(chuàng)新,大家如果關(guān)注具身智能,會(huì)發(fā)現(xiàn)這波浪潮伴隨著大模型對(duì)物理世界的應(yīng)用,這本質(zhì)就是提出了一個(gè) VLA 算法,我們的 VLA 模型就是想把具身智能的思想和路徑引用在自動(dòng)駕駛領(lǐng)域。我們是最早提出,也是最早開始實(shí)踐的。VLA 也是一種端到端,因?yàn)槎说蕉说谋举|(zhì)是場(chǎng)景輸入,軌跡輸出,VLA 也是如此,但算法的創(chuàng)新是多了思考。端到端可以理解為 VA,沒有 Language,Language 對(duì)應(yīng)的是思考和理解,我們?cè)?VLA 中加入了這一部分,把機(jī)器人的范式統(tǒng)一,讓自動(dòng)駕駛也能成為機(jī)器人的一類,這是算法創(chuàng)新,不只是工程創(chuàng)新。
對(duì)于自動(dòng)駕駛而言,很大的挑戰(zhàn)是必須要有工程創(chuàng)新。因?yàn)?VLA 是一個(gè)大模型,大模型部署在邊緣端算力上是非常具有挑戰(zhàn)的。很多團(tuán)隊(duì)并不是認(rèn)為 VLA 不好,而是因?yàn)?VLA 部署有困難,把它真正落地是非常具有挑戰(zhàn)性的事情,尤其是在邊緣端芯片算力不夠的情況下是不可能完成的,所以我們是在大算力芯片上才能部署。所以這不僅僅是工程創(chuàng)新,但的確需要工程部署大范圍優(yōu)化才能實(shí)現(xiàn)。
Q:VLA 大模型在車端部署的時(shí)候是否會(huì)有比如模型裁剪或蒸餾版本?如何在推理效率和模型之間做好平衡?
詹錕:在部署時(shí)的效率和蒸餾上我們做了非常多平衡。我們的基座模型是自研的 8x0.4B 的 MoE 模型(混合專家模型),這是業(yè)界沒有的,我們?cè)谏钊敕治鲇ミ_(dá)芯片后,發(fā)現(xiàn)這個(gè)架構(gòu)非常適合它,推理速度快的同時(shí)模型容量大,能夠同時(shí)容納不同場(chǎng)景、不同能力的大模型,這是我們?cè)诩軜?gòu)上的選擇。
另外,我們是大模型蒸餾出來的,我們最早訓(xùn)練了一個(gè) 32B 的云端大模型,它容納了海量的知識(shí)和駕駛能力,我們把它做出的思考和推理流程蒸餾到 3.2B 的 MoE 模型上,配合 Vision 和 Action,使用了 Diffusion 技術(shù)(擴(kuò)散模型,可以生成圖像、視頻、音頻,動(dòng)作軌跡等數(shù)據(jù),具體到理想的 VLA 場(chǎng)景,是利用 Diffusion 生成行車軌跡)。
我們用這樣的方法做了非常多的優(yōu)化。從細(xì)節(jié)上來看,我們也針對(duì) Diffusion 做了工程優(yōu)化,并不是直接使用標(biāo)準(zhǔn) Diffusion,而是進(jìn)行了推理的壓縮,可以理解為一種蒸餾。以前 Diffusion 可能要推理 10 步驟,我們使用了 flow matching 流匹配只需要推理 2 步就可以了,這方面的壓縮也是導(dǎo)致我們真正能夠部署 VLA 的本質(zhì)原因。
Q:VLA 是一個(gè)足夠好的解法了嗎?它抵達(dá)所謂的「GPT 時(shí)刻」還需要花多長(zhǎng)時(shí)間?
詹錕:多模態(tài)模型之前說沒有達(dá)到 GPT 時(shí)刻,可能指的是 VLA 這種物理 AI,而不是 VLM,其實(shí)現(xiàn)在 VLM 已經(jīng)完全滿足一個(gè)非常創(chuàng)新的「GPT 時(shí)刻」標(biāo)準(zhǔn),如果針對(duì)物理 AI,現(xiàn)在的 VLA,特別是在機(jī)器人領(lǐng)域、具身智能領(lǐng)域可能并沒有達(dá)到「GPT 時(shí)刻」的標(biāo)準(zhǔn),因?yàn)樗鼪]有那么好的泛化能力。
但在自動(dòng)駕駛領(lǐng)域,其實(shí) VLA 解決的是一個(gè)相對(duì)統(tǒng)一的駕駛范式,是有機(jī)會(huì)用這個(gè)方式做到一個(gè)「GPT 時(shí)刻」的,我們也非常承認(rèn)現(xiàn)在的 VLA 是第一版本,也是業(yè)界第一個(gè)往量產(chǎn)上要推的 VLA 版本,肯定會(huì)存在一些缺陷。
這個(gè)重大嘗試是想說我們想用VLA來探索一個(gè)新的路徑,它里面有很多嘗試的地方,有很多需要去落地的探索的點(diǎn),不是說不能做到「GPT 時(shí)刻」就一定不能去做量產(chǎn)落地,它有很多細(xì)節(jié),包括我們的評(píng)測(cè)、仿真去驗(yàn)證它能不能做到量產(chǎn)落地,能不能給用戶「更好、更舒適、更安全」的體驗(yàn),做到以上三點(diǎn)就可以給用戶更好的交付。
「GPT 時(shí)刻」更多指的是具有很強(qiáng)的通用性和泛化性,在這個(gè)過程可能隨著我們自動(dòng)駕駛往空間機(jī)器人或往其它具身領(lǐng)域去拓展的時(shí)候會(huì)產(chǎn)生出更強(qiáng)的泛化能力或者更綜合的統(tǒng)籌能力,我們也會(huì)在落地以后隨著「用戶數(shù)據(jù)迭代、場(chǎng)景豐富、思維邏輯性越來越多、語音交互越來越多」逐漸往 ChatGPT 時(shí)刻遷移。
像郎博(郎咸朋博士)說的,到明年我們?nèi)绻搅?1000MPI,可能會(huì)給用戶這種感覺:真的到了一個(gè) VLA 的「GPT 時(shí)刻」。
文|劉學(xué)文
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。