http://m.007sbw.cn 2025-06-16 10:35 來(lái)源:中國(guó)信息化周報(bào)
近日,東風(fēng)柳州汽車(chē)有限公司(以下簡(jiǎn)稱(chēng)“東風(fēng)柳汽”)與智平方(深圳)科技有限公司(以下簡(jiǎn)稱(chēng)“智平方”)簽署戰(zhàn)略合作協(xié)議,探索具身大模型在汽車(chē)制造全方位場(chǎng)景的首次深度應(yīng)用。
搭載智平方全域全身VLA(GOVLA)大模型的通用智能機(jī)器人AlphaBot 2(愛(ài)寶)將進(jìn)駐東風(fēng)柳汽汽車(chē)工廠,在柔性裝配、油液加注、安全巡檢等多個(gè)場(chǎng)景執(zhí)行智能化作業(yè),覆蓋質(zhì)量檢測(cè)、裝配作業(yè)、物流轉(zhuǎn)運(yùn)、工廠運(yùn)維等關(guān)鍵制造環(huán)節(jié)。這是通用智能機(jī)器人探索“進(jìn)廠打工”的最新一例,標(biāo)志著國(guó)產(chǎn)具身大模型首次獲得汽車(chē)制造全場(chǎng)景驗(yàn)證。
VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型)作為具身智能領(lǐng)域的關(guān)鍵新范式,能有效整合視覺(jué)信息、語(yǔ)言指令與行動(dòng)決策,顯著提升機(jī)器人對(duì)復(fù)雜環(huán)境的理解和適應(yīng)能力,對(duì)推動(dòng)機(jī)器人從單一任務(wù)執(zhí)行向多樣化場(chǎng)景自主決策的跨越至關(guān)重要。但在實(shí)際應(yīng)用過(guò)程中,VLA模型在泛化能力、精確性、多模態(tài)信息融合上仍存挑戰(zhàn)。
VLA僅是具身智能的起點(diǎn)
具身智能旨在讓智能體在物理世界中通過(guò)感知、決策和行動(dòng)來(lái)實(shí)現(xiàn)目標(biāo),而視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型作為其中的關(guān)鍵技術(shù),近年來(lái)備受關(guān)注。
例如,在機(jī)器人任務(wù)中,VLA模型可以根據(jù)看到的場(chǎng)景(視覺(jué))和接收到的任務(wù)指令(語(yǔ)言)來(lái)決定如何移動(dòng)和操作(行動(dòng)),其末端執(zhí)行器或特定參考點(diǎn)在空間中所經(jīng)過(guò)的路徑便是運(yùn)動(dòng)軌跡,通過(guò)VLA模型對(duì)多模態(tài)信息的處理和分析,能夠不斷優(yōu)化和調(diào)整運(yùn)動(dòng)軌跡,使機(jī)器人能夠高效、準(zhǔn)確、安全地完成各種任務(wù)。
2023年8月,谷歌DeepMind推出機(jī)器人模型Robotics Transformer 2(RT-2),是全球第一個(gè)控制機(jī)器人的視覺(jué)-語(yǔ)言-動(dòng)作大模型(Vision Language Action Models,VLAs),10月發(fā)布RT-X機(jī)器人大模型。
如今,VLA模型已廣泛擴(kuò)散至輔助駕駛領(lǐng)域。3月18日,理想發(fā)布了下一代自動(dòng)駕駛架構(gòu)MindVLA,成功整合了空間智能、語(yǔ)言智能和行為智能;隨后的4月,小鵬披露其正在研發(fā)的720億參數(shù)自動(dòng)駕駛大模型——小鵬世界基座模型,該模型以大語(yǔ)言模型為骨干網(wǎng)絡(luò),通過(guò)海量?jī)?yōu)質(zhì)駕駛數(shù)據(jù)訓(xùn)練而成,具備視覺(jué)理解、鏈?zhǔn)酵评砗蛣?dòng)作生成三大核心能力;此外,吉利、奇瑞等車(chē)企也在積極研發(fā)布局VLA大模型。
而在6月6日的2025智源大會(huì)上,銀河通用機(jī)器人Galbot G1也亮相現(xiàn)場(chǎng),機(jī)器人在語(yǔ)音指令下自主、精確的從現(xiàn)場(chǎng)搭建的貨架上抓取對(duì)應(yīng)物品,全程無(wú)遙操、自主推理、且事先無(wú)采集場(chǎng)景數(shù)據(jù)。此次Galbot G1展示的貨架精準(zhǔn)取貨,背后的技術(shù)正是銀河通用團(tuán)隊(duì)最新研發(fā)的端到端具身大模型Grocery VLA。
對(duì)于VLA的泛化性,銀河通用創(chuàng)始人兼CTO(首席技術(shù)官)王鶴認(rèn)為,“VLA是當(dāng)下具身研究的熱點(diǎn),但VLA只是一個(gè)起點(diǎn),要真正做到人類(lèi)級(jí)別的具身智能,只能是不斷融合新的模態(tài)。VLA面對(duì)的很多任務(wù),在工業(yè)、商業(yè)、服務(wù)等方面都有非常廣泛的應(yīng)用,如果把這樣的VLA做好,將見(jiàn)證具身智能第一次真正高峰的到來(lái)。”
中關(guān)村人才協(xié)會(huì)RWA工作委員會(huì)常務(wù)副主任及秘書(shū)長(zhǎng)吳高斌向《中國(guó)信息化周報(bào)》記者表示:“盡管VLA模型在整合視覺(jué)信息、語(yǔ)言指令與行動(dòng)決策方面表現(xiàn)出色,但在實(shí)際應(yīng)用中仍面臨環(huán)多方面挑戰(zhàn),真實(shí)生產(chǎn)環(huán)境中存在諸多不確定性因素,如光照變化、噪聲干擾等,這些因素可能影響VLA模型的準(zhǔn)確性和穩(wěn)定性。雖然VLA模型在處理簡(jiǎn)單任務(wù)時(shí)表現(xiàn)出色,但在面對(duì)復(fù)雜、長(zhǎng)程任務(wù)時(shí),如何有效規(guī)劃行動(dòng)路徑、避免沖突等仍是需要解決的問(wèn)題。如何提高模型的泛化能力,減少對(duì)特定環(huán)境依賴(lài),是未來(lái)研究重點(diǎn)。”
天使投資人、資深人工智能專(zhuān)家郭濤接受《中國(guó)信息化周報(bào)》記者采訪時(shí)表示:“VLA模型在工業(yè)場(chǎng)景的深化應(yīng)用仍面臨多重技術(shù)挑戰(zhàn)。其一,多模態(tài)信息融合精度亟待提升,工業(yè)環(huán)境中的光照變化、部件遮擋等因素易造成視覺(jué)感知誤差,需進(jìn)一步優(yōu)化跨模態(tài)對(duì)齊算法;其二,長(zhǎng)程任務(wù)規(guī)劃系統(tǒng)的魯棒性不足,面對(duì)動(dòng)態(tài)產(chǎn)線干擾時(shí),語(yǔ)言指令解析與動(dòng)作執(zhí)行的容錯(cuò)機(jī)制仍需完善;其三,數(shù)據(jù)獲取與處理存在瓶頸,汽車(chē)制造領(lǐng)域數(shù)據(jù)樣本稀缺且標(biāo)注成本高昂,如何通過(guò)小樣本學(xué)習(xí)技術(shù)實(shí)現(xiàn)模型對(duì)不同車(chē)型產(chǎn)線的快速適配,成為制約技術(shù)規(guī)模化應(yīng)用的關(guān)鍵難題。”
機(jī)器人打工首獲汽車(chē)全場(chǎng)景驗(yàn)證
近年來(lái),人形機(jī)器人的發(fā)布會(huì)總少不了“太空步”“后空翻”等表演。而在東風(fēng)柳汽的實(shí)際應(yīng)用場(chǎng)景中,智平方愛(ài)寶展現(xiàn)出全方位的智能化作業(yè)能力。
例如,在上下料場(chǎng)景,愛(ài)寶能夠精準(zhǔn)完成從料車(chē)搬箱、姿態(tài)調(diào)整到定位放置的全流程作業(yè),同步完成取件、滅燈及轉(zhuǎn)身放置,顯著提升搬運(yùn)效率和操作靈活性;在拖拽料車(chē)場(chǎng)景,基于全域環(huán)境感知技術(shù),機(jī)器人可實(shí)時(shí)分析產(chǎn)線運(yùn)行狀態(tài),自主規(guī)劃最優(yōu)路徑并安全介入,實(shí)現(xiàn)空料車(chē)的精準(zhǔn)拖拽;在車(chē)門(mén)質(zhì)檢與貼保護(hù)布環(huán)節(jié),GOVLA大模型協(xié)調(diào)視覺(jué)、決策與動(dòng)作系統(tǒng),讓愛(ài)寶能夠自主執(zhí)行車(chē)門(mén)識(shí)別、車(chē)門(mén)檢測(cè)、漆面掃描、抓取保護(hù)布、保護(hù)布貼合等多步驟復(fù)雜任務(wù),確保長(zhǎng)程任務(wù)穩(wěn)定操作。
這種能力的背后,是智平方大模型的革新。作為國(guó)內(nèi)最早提出并系統(tǒng)性研發(fā)端到端VLA技術(shù)范式的企業(yè),智平方于今年4月在原有具身大模型AI2R Brain基礎(chǔ)上正式發(fā)布全球首個(gè)自主研發(fā)的GOVLA大模型。該具身大模型具備從桌面到開(kāi)放環(huán)境的適應(yīng)能力、從單臂到全身協(xié)同的操作能力,以及從簡(jiǎn)單任務(wù)到長(zhǎng)程復(fù)雜任務(wù)的推理能力。
“東風(fēng)柳汽本次與智平方的合作,不僅體現(xiàn)了技術(shù)從實(shí)驗(yàn)室到工業(yè)場(chǎng)景的落地能力,更通過(guò)真實(shí)生產(chǎn)環(huán)境的數(shù)據(jù)反饋,推動(dòng)了具身智能技術(shù)的快速迭代。對(duì)于汽車(chē)制造業(yè)而言,智能化升級(jí)是提升效率、降低成本、增強(qiáng)競(jìng)爭(zhēng)力的關(guān)鍵路徑,而此次合作正是這一趨勢(shì)的生動(dòng)實(shí)踐。”北京市社會(huì)科學(xué)院副研究員王鵬向《中國(guó)信息化周報(bào)》記者說(shuō)道。
郭濤認(rèn)為,“這項(xiàng)創(chuàng)新應(yīng)用開(kāi)創(chuàng)了具身大模型在汽車(chē)制造全流程落地的先河,徹底打破傳統(tǒng)工業(yè)機(jī)器人‘專(zhuān)機(jī)專(zhuān)用’的技術(shù)桎梏。相較以往,本次技術(shù)升級(jí)實(shí)現(xiàn)三大維度突破:在任務(wù)執(zhí)行層面,憑借34+自由度全身協(xié)同控制系統(tǒng),機(jī)器人可靈活切換裝配、檢測(cè)、巡檢等跨工序作業(yè),顯著提升生產(chǎn)柔性;環(huán)境適應(yīng)方面,通過(guò)360°全域自主導(dǎo)航與多車(chē)型混線生產(chǎn)適配技術(shù),有效解決傳統(tǒng)機(jī)器人部署周期長(zhǎng)、產(chǎn)線調(diào)整效率低的行業(yè)痛點(diǎn);決策能力維度,基于GOVLA模型構(gòu)建的視覺(jué)-語(yǔ)言-動(dòng)作閉環(huán)系統(tǒng),賦予機(jī)器人自主完成油液加注等復(fù)雜復(fù)合任務(wù)的能力,較傳統(tǒng)示教編程模式大幅提升生產(chǎn)效率”。
近年來(lái),機(jī)器人公司加速進(jìn)入工業(yè)場(chǎng)景,如開(kāi)普勒與全球前五大主機(jī)廠及頭部物流公司展開(kāi)合作,優(yōu)必選在極氪汽車(chē)5G智慧工廠完成多場(chǎng)景多任務(wù)機(jī)器人協(xié)同實(shí)訓(xùn),比亞迪通過(guò)工業(yè)人形機(jī)器人Walker S1與無(wú)人車(chē)協(xié)同作業(yè)打通產(chǎn)品從來(lái)料到生產(chǎn)的物流鏈路。具身智能的進(jìn)化,離不開(kāi)海量真實(shí)數(shù)據(jù)的聚合。通過(guò)在制造工廠的場(chǎng)景應(yīng)用,可以為國(guó)產(chǎn)機(jī)器人提供最佳的“實(shí)戰(zhàn)訓(xùn)練場(chǎng)”。