李想詳解AI戰(zhàn)略:從信息工具邁向生產(chǎn)力,理想汽車押注“司機(jī)大模型”汽車
理想汽車在VLA司機(jī)大模型的語(yǔ)言能力研發(fā)上提速顯著,未來(lái)的VLA就是一個(gè)像人類司機(jī)一樣工作的司機(jī)大模型,輔助駕駛的真正突破點(diǎn)是VLA——一個(gè)能像人類司機(jī)一樣觀察、理解并執(zhí)行行動(dòng)的多模態(tài)大模型。
TechWeb 文/卞海川
在距離上次“AI Talk”整整130天之后,理想汽車創(chuàng)始人兼CEO李想再度接受張小珺專訪,系統(tǒng)闡述了理想汽車在人工智能,特別是“司機(jī)大模型”(VLA)方面的最新進(jìn)展。

人工智能尚未減少工作時(shí)長(zhǎng),核心挑戰(zhàn)仍是“熵增”
“人工智能發(fā)展得這么快,但我每天的工作時(shí)長(zhǎng)并沒(méi)有減少。”李想的一句開(kāi)場(chǎng)白引發(fā)共鳴。在他看來(lái),當(dāng)前大多數(shù)人仍將AI視為信息工具,而信息的質(zhì)量受限于索引機(jī)制,尤其是RAG(檢索增強(qiáng)生成)依賴的源頭往往已“失真”,導(dǎo)致“推理很認(rèn)真,但結(jié)果是錯(cuò)的”。
李想進(jìn)一步提出AI工具的三層分級(jí):信息工具、輔助工具、生產(chǎn)工具。
“只有成為生產(chǎn)工具,人工智能才真正實(shí)現(xiàn)爆發(fā)。” 他強(qiáng)調(diào),AI若無(wú)法切實(shí)改善產(chǎn)出質(zhì)量、壓縮時(shí)間成本,就無(wú)法對(duì)工作效率產(chǎn)生實(shí)質(zhì)影響。
擁抱DeepSeek,加速理想VLA模型推進(jìn)9個(gè)月
對(duì)于中國(guó)大模型行業(yè),李想毫不掩飾自己的贊譽(yù):“無(wú)論是DeepSeek還是千問(wèn),中國(guó)AI在基礎(chǔ)模型、推理模型、多模態(tài)能力上已經(jīng)跟美國(guó)的距離基本上拉近了。”
李想對(duì)DeepSeek以及其創(chuàng)始人梁文鋒給出了高度評(píng)價(jià),包括“自律”、“會(huì)在全世界范圍之內(nèi)去研究和學(xué)習(xí)最佳實(shí)踐和最好的方法論的人”。
李想介紹了他從DeepSeek上吸取到的經(jīng)驗(yàn)。DeepSeek運(yùn)用了人類的最佳實(shí)踐,比如說(shuō)DeepSeek V3采用了一個(gè)671B的MoE(混合專家模型)。
專家能力如何構(gòu)建?李想認(rèn)為,DeepSeek展示了一個(gè)最佳實(shí)踐:第一步一定要先搞研究。
“任何時(shí)候當(dāng)我們想去改變和提升能力,第一步一定是搞研究,第二步是研發(fā),第三步是把能力表達(dá)出來(lái),第四步是能力變成業(yè)務(wù)的價(jià)值。這四個(gè)步驟是個(gè)極簡(jiǎn)的人類最佳實(shí)踐,但我們經(jīng)常做著就忘掉了,看到什么東西就直接去啟動(dòng)研發(fā),而沒(méi)有去搞研究。”李想說(shuō)道。
正是基于DeepSeek的開(kāi)源,理想汽車在VLA司機(jī)大模型的語(yǔ)言能力研發(fā)上提速顯著,節(jié)省了近9個(gè)月的時(shí)間和數(shù)億元成本。
“我們內(nèi)心很簡(jiǎn)單:DeepSeek幫助我們太大,所以我們決定開(kāi)源自研的星環(huán)OS系統(tǒng)作為回饋。”李想表示,就是DeepSeek給我們帶來(lái)那么大的幫助,我們應(yīng)該給對(duì)社會(huì)貢獻(xiàn)點(diǎn)什么,不讓行業(yè)那么卷。說(shuō)白了純粹是感謝DeepSeek。
為什么有了DeepSeek,理想還要自研基座模型?李想回應(yīng)說(shuō):“核心在場(chǎng)景需求不同,我們要做車載多模態(tài)交互,尤其是VLA(視覺(jué)語(yǔ)言行動(dòng)模型)——需要3D/2D視覺(jué)融合,疊加汽車、交通、家庭場(chǎng)景的專業(yè)語(yǔ)料,這些垂直領(lǐng)域的數(shù)據(jù)和訓(xùn)練邏輯,是通用模型沒(méi)覆蓋的。”
理想汽車的AI主航道:打造司機(jī)級(jí)大模型
目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段,而VLA能夠讓AI真正成為司機(jī),成為交通領(lǐng)域的專業(yè)生產(chǎn)工具。對(duì)理想汽車而言, 未來(lái)的VLA就是一個(gè)像人類司機(jī)一樣工作的司機(jī)大模型”。
在李想看來(lái),輔助駕駛的真正突破點(diǎn)是VLA——一個(gè)能像人類司機(jī)一樣觀察、理解并執(zhí)行行動(dòng)的多模態(tài)大模型。

他將VLA的發(fā)展劃分為三階段:
1. 昆蟲(chóng)智能階段:依賴規(guī)則算法、高精地圖,智能程度有限;比較像螞蟻的行動(dòng)和完成任務(wù)的一個(gè)方式。
2. 哺乳動(dòng)物階段:通過(guò)端到端學(xué)習(xí)模仿人類操作,泛化能力增強(qiáng);去面對(duì)它從來(lái)沒(méi)有學(xué)到的、特別復(fù)雜的,其實(shí)就會(huì)遇到問(wèn)題。
3. 人類智能階段:VLA具備理解物理世界的能力,結(jié)合3D視覺(jué)、語(yǔ)言理解和行動(dòng)執(zhí)行,“像司機(jī)一樣工作”。
李想總結(jié)稱,它會(huì)像人類一樣的用3D的vision和2D的組合,去看整個(gè)真實(shí)的物理世界,也包含它能夠去看懂導(dǎo)航軟件是怎么在運(yùn)行的,而不是像VLM那樣只能看到一張圖片。另外一方面,它有自己的整個(gè)腦系統(tǒng),不但要看到物理世界,還能夠理解這個(gè)物理世界。它有它的language,然后它也有它的CoT(思維鏈),有推理的能力。
目前,理想正在訓(xùn)練一個(gè)32B參數(shù)量級(jí)的VL(視覺(jué)-語(yǔ)言)基座模型,加入了高清2D圖像、3D視覺(jué)、交通語(yǔ)言語(yǔ)料及VL聯(lián)合語(yǔ)料(如導(dǎo)航與行為的關(guān)聯(lián))。
基于此前李想對(duì)于人工智能的判斷,他認(rèn)為,只有讓輔助駕駛變成一個(gè)真正的司機(jī),它才是一個(gè)生產(chǎn)力工具,不只是一個(gè)輔助工具。
最新公布的視頻顯示,基于 VLA 模型的輔助駕駛系統(tǒng),駕駛員可以用語(yǔ)音操控車輛,包括走收費(fèi)站的人工通道、掉頭、靠邊停車、停在停車場(chǎng)的 C3 區(qū)域等等,這都是輔助駕駛從未有過(guò)的體驗(yàn)。
對(duì)于行業(yè)普遍存在的對(duì)輔助駕駛安全性的質(zhì)疑,李想則表示,“這正是黎明前的黑暗”。他表示,正因?yàn)檩o助駕駛行業(yè)遇到了問(wèn)題,我最喜歡、最開(kāi)心的方式,就是去解決行業(yè)解決不了的問(wèn)題,這是我們自己堅(jiān)決相信的。
李想認(rèn)為,只要人類會(huì)雇傭司機(jī),人工智能技術(shù)是把類似這樣的一些功能和角色,去變成真正的生產(chǎn)力、生產(chǎn)工具,然后進(jìn)行替代。
成長(zhǎng)帶來(lái)能量,在痛苦中保持正能量
今年7月,理想汽車將迎來(lái)成立十周年。李想表示,創(chuàng)業(yè)路上苦多于甜,他選擇保留那些有價(jià)值的美好片段,用來(lái)激勵(lì)自己保持正能量。“創(chuàng)業(yè)確實(shí)不容易,但是沒(méi)必要苦哈哈的。苦和甜是一個(gè)硬幣的正反面,取決于看哪一面。”他將企業(yè)遭遇的打擊視為必須面對(duì)的挑戰(zhàn),也正是這些挑戰(zhàn),賦予了理想汽車更多的能力。
談及如何成為更有能量的人,李想認(rèn)為,關(guān)鍵在于關(guān)注自我,接受自身的優(yōu)點(diǎn)和不足,并用成長(zhǎng)替代改變——成長(zhǎng)意味著增強(qiáng)能力。除此之外,李想強(qiáng)調(diào)親密關(guān)系同樣重要,關(guān)注他人的成長(zhǎng)也能帶來(lái)能量,家人和同事能夠和他形成互補(bǔ),相互支撐。“我需要家人和同事甚至超過(guò)了他們需要我,首先是我需要他們,然后才是他們需要我,我們?cè)谝黄鹉軌蛐纬煞浅?qiáng)的腦力和心力。”李想表示。
回顧幾次創(chuàng)業(yè)經(jīng)歷,李想表示,從高中創(chuàng)辦個(gè)人網(wǎng)站至今,自己的思維方式?jīng)]有什么變化:遇到問(wèn)題解決問(wèn)題,解決別人不愿解決的難題,解決用戶的痛點(diǎn),不斷向他人學(xué)習(xí)。不同的是,如今面臨的問(wèn)題更復(fù)雜、服務(wù)的用戶群體更多、公司規(guī)模和組織也更龐大。“幾次創(chuàng)業(yè)一路走來(lái),最難時(shí)有人相助,遇坑也能迅速爬出,一幫人齊心協(xié)力變得更好,這是種幸運(yùn),也沒(méi)什么可后悔的。”
AI的真正爆發(fā),不僅是技術(shù)參數(shù)的躍升,更是從“參考”到“生產(chǎn)”的范式轉(zhuǎn)移。司機(jī)大模型,或許正是理想汽車投向未來(lái)的一張王牌。
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。