理想汽車發(fā)布MindVLA，重塑自動(dòng)駕駛新格局

發(fā)布時(shí)間：2025-04-02 12:03 來(lái)源：中國(guó)廣告網(wǎng) 閱讀量：9657 會(huì)員投稿

理想汽車重磅發(fā)布MindVLA，強(qiáng)勢(shì)重塑自動(dòng)駕駛?cè)赂窬?/p>

2025 年 3 月 18 日，理想汽車自動(dòng)駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬在 NVIDIA GTC 2025 上，分享了理想汽車下一代自動(dòng)駕駛技術(shù) MindVLA 的最新進(jìn)展。賈鵬稱，MindVLA 作為機(jī)器人大模型，成功融合空間智能、語(yǔ)言智能和行為智能，一旦打通物理與數(shù)字世界結(jié)合的范式，將有望為眾多行業(yè)賦能。它將把汽車從單純的運(yùn)輸工具，轉(zhuǎn)變?yōu)橘N心且智能的專職司機(jī)，使其能聽(tīng)得懂指令、看得見(jiàn)環(huán)境、找得到目的地，賦予汽車類似人類的認(rèn)知與適應(yīng)能力。

理想全棧自研的 MindVLA，基于端到端 + VLM 雙系統(tǒng)架構(gòu)的實(shí)踐及對(duì)前沿技術(shù)的洞察而誕生。VLA 作為機(jī)器人大模型的新范式，賦予自動(dòng)駕駛強(qiáng)大的 3D 空間理解、邏輯推理及行為生成能力，讓自動(dòng)駕駛可感知、思考并適應(yīng)環(huán)境。MindVLA 并非簡(jiǎn)單組合端到端模型和 VLM 模型，而是全新設(shè)計(jì)所有模塊。3D 空間編碼器借助語(yǔ)言模型與邏輯推理結(jié)合，輸出合理駕駛決策及 Action Token，再通過(guò) Diffusion 優(yōu)化出最佳駕駛軌跡，且整個(gè)推理過(guò)程在車端實(shí)時(shí)運(yùn)行。

MindVLA 具備六大關(guān)鍵技術(shù)，打破傳統(tǒng)自動(dòng)駕駛技術(shù)框架。它采用能承載豐富語(yǔ)義、具有優(yōu)良 3D 幾何表達(dá)能力的 3D 高斯作為中間表征，通過(guò)海量數(shù)據(jù)自監(jiān)督訓(xùn)練提升下游任務(wù)性能。理想從零設(shè)計(jì)并訓(xùn)練適合 MindVLA 的 LLM 基座模型，采用 MoE 混合專家架構(gòu)和 Sparse Attention 實(shí)現(xiàn)模型稀疏化，在保證模型規(guī)模增長(zhǎng)的同時(shí)，不降低端側(cè)推理效率，訓(xùn)練中加入大量 3D 數(shù)據(jù)以賦予模型 3D 空間理解與推理能力，并通過(guò)加入未來(lái)幀預(yù)測(cè)生成和稠密深度預(yù)測(cè)等任務(wù)，激發(fā)模型空間智能。為提升邏輯推理能力，訓(xùn)練 LLM 基座模型學(xué)習(xí)人類思考過(guò)程，實(shí)現(xiàn)快慢思考自主切換，通過(guò)小詞表結(jié)合投機(jī)推理及并行解碼技術(shù)，提升實(shí)時(shí)推理速度，平衡模型參數(shù)規(guī)模與推理性能。MindVLA 利用 Diffusion 解碼 Action Token 為優(yōu)化軌跡，通過(guò)自車行為生成和他車軌跡預(yù)測(cè)聯(lián)合建模提升復(fù)雜交通環(huán)境博弈能力，采用 Ordinary Differential Equation 采樣器解決 Diffusion 效率低問(wèn)題，還通過(guò)建立人類偏好數(shù)據(jù)集及應(yīng)用 RLHF 微調(diào)模型采樣過(guò)程，提升安全下限?；谧匝兄亟?+ 生成云端統(tǒng)一世界模型，MindVLA 融合重建與生成模型能力構(gòu)建仿真環(huán)境，實(shí)現(xiàn)基于仿真的大規(guī)模閉環(huán)強(qiáng)化學(xué)習(xí)，通過(guò)工程優(yōu)化顯著提升場(chǎng)景重建與生成的質(zhì)量和效率。此外，通過(guò)創(chuàng)新預(yù)訓(xùn)練和后訓(xùn)練方法，MindVLA 具備卓越泛化能力和涌現(xiàn)特性，在室內(nèi)環(huán)境也展現(xiàn)出適應(yīng)性。

MindVLA 將為用戶帶來(lái)全新體驗(yàn)?！奥?tīng)得懂” 體現(xiàn)在用戶能通過(guò)語(yǔ)音指令改變車輛路線和行為，如在陌生園區(qū)找超市，對(duì)理想同學(xué)說(shuō)指令，車輛就能自主找到目的地;“看得見(jiàn)” 指其具備強(qiáng)大通識(shí)能力，可識(shí)別商店招牌，還能依據(jù)用戶發(fā)送的照片找到用戶;“找得到” 意味著車輛能在地庫(kù)、園區(qū)和公共道路自主漫游找車位，不依賴地圖或?qū)Ш??？傊?，MindVLA 賦能的汽車不再只是駕駛工具，而是能與用戶溝通、理解用戶意圖的智能體，它將重新定義自動(dòng)駕駛，為汽車行業(yè)及人工智能領(lǐng)域開(kāi)拓新方向，有望推動(dòng)多行業(yè)協(xié)同發(fā)展。

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn)，請(qǐng)與有關(guān)方核實(shí)，文章觀點(diǎn)非本網(wǎng)觀點(diǎn)，僅供讀者參考。

天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm

理想汽車發(fā)布MindVLA，重塑自動(dòng)駕駛新格局

最新文章

熱門文章