VLA模型即視覺-語言-動作模型,是一種將視覺、語言理解、動作控制融合在一起的多模態基礎模型。不同于LLM(大語言模型)的文本模態、VLM(視覺-語言模型)的文本-視覺模態,VLA模型是將視覺、語言和行動三種模態的數據結合起來,具備感知-理解-決策的潛力。
根據模型構架不同,VLA模型分為單模型構架、分層雙系統構架、自修正框架。VLA模型通常包含視覺編碼器、語言模型、動作解碼器三大核心部分,其中視覺編碼器負責讀取傳感器數據,將圖像、點云等轉成數字特征,語言模型對視覺特征和其它輸入進行推理理解,動作解碼器根據語言模型的輸出生成相應的控制指令。
根據新思界產業研究中心發布的
《2025-2029年中國VLA(視覺-語言-動作)模型市場行情監測及未來發展前景研究報告》顯示,VLA模型是多模態大模型驅動的智能體架構,能直接輸出控制信號,極大地提高了復雜環境適應能力和決策響應速度,在機器人、自動駕駛、精準農業、增強現實(AR)導航、工業自動化等領域具有廣闊應用前景。
端到端方案是目前自動駕駛領域的主流范式,從技術演進來看,端到端大致分為模塊化端到端(分段式端到端)、全局端到端(一段式端到端)兩類。近年來,我國智能駕駛技術正從模塊化端到端向全局端到端演變,而VLA模型作為實現全局端到端的關鍵技術,正日益受到廣泛關注。
隨著相關研究深入,VLA模型技術路線日新月異。目前國內外VLA模型已達百余項,包括谷歌DeepMind的RT-2、英偉達的GROOT N1、Wayve的LINGO-1、Phvsical AI的π0、Figure AI的Helix、星動紀元的ERA-42、銀河通用的GraspVLA、理想汽車的MindVLA等。此外VLA模型布局企業還包括千尋智能、靈初智能、小鵬汽車等。
在相關企業積極布局下,VLA模型即將迎來規模落地。但VLA模型大規模落地需要算法、算力、數據等多方面助力,目前數據成本居高不下、動態環境適配差、訓練效率較低、算力成本高、落地安全性較差等問題,也制約著VLA模型實現落地應用。
新思界
行業分析人士表示,VLA模型能夠提高機器人、自動駕駛等在復雜環境中的適應能力和決策響應速度,對機器人、自動駕駛等產業發展十分重要,國內外企業均在進行積極的探索和實踐。VLA模型應用場景廣泛,但目前VLA模型仍處于早期發展階段,要實現大規模落地,仍面臨諸多技術挑戰。
關鍵字: