http://m.007sbw.cn 2023-08-22 11:29 來(lái)源:21世紀(jì)經(jīng)濟(jì)報(bào)道
人工智能大模型的火熱,也催熱了人形機(jī)器人。
“簡(jiǎn)單來(lái)說(shuō),目前做人形機(jī)器人,包括AI應(yīng)用,只要把現(xiàn)有大模型的技術(shù)拿過(guò)來(lái)移植或者裁減一下,對(duì)人形機(jī)器人來(lái)說(shuō)就已經(jīng)足夠了。”近日,宇樹(shù)科技創(chuàng)始人兼首席執(zhí)行官王興興日前對(duì)記者作出了如上判斷。
在他看來(lái),人形機(jī)器人已經(jīng)經(jīng)歷了各種高校、科研院所幾十年的研發(fā),過(guò)去有高潮也有低谷,但是隨著AI迭代速度越來(lái)越快,目前人類(lèi)的控制技術(shù)已經(jīng)有希望駕馭人形機(jī)器人這么復(fù)雜的機(jī)器人形態(tài),而今年AI的進(jìn)展速度已經(jīng)遠(yuǎn)超機(jī)器人所需的技術(shù)。
事實(shí)上,行業(yè)內(nèi)秉持著如此觀點(diǎn)的人并非少數(shù)。在8月18日下午舉辦的2023世界機(jī)器人大會(huì)-通用人形機(jī)器人技術(shù)與產(chǎn)業(yè)創(chuàng)新論壇上,中國(guó)科學(xué)院院士、清華大學(xué)交叉信息研究院院長(zhǎng)姚期智在現(xiàn)場(chǎng)表示,ChatGPT的能力目前僅主要體現(xiàn)于對(duì)語(yǔ)言的處理之上,而如果未來(lái)真正讓通用人工智能發(fā)揮出它的價(jià)值,AGI一定需要有具身實(shí)體來(lái)和真實(shí)的物理世界相交互完成各種任務(wù)。而人形機(jī)器人就是具身智能落地的最理想形態(tài)之一。
硬件、算法與模型
在多位業(yè)內(nèi)專(zhuān)家看來(lái),人形機(jī)器人基本上具備三個(gè)部分,第一部分是身體,第二部分是小腦,第三部分則是大腦。身體的具身必須要有足夠的硬件,例如傳感器和執(zhí)行器,小腦會(huì)主導(dǎo)視覺(jué)、觸覺(jué)各種感知來(lái)控制身體,完成復(fù)雜的任務(wù),最后大腦主導(dǎo)上層的邏輯推理、決策、長(zhǎng)時(shí)間的規(guī)劃,以及與其他的智能體和環(huán)境進(jìn)行自然語(yǔ)言交流。
在身體形態(tài)方面,姚期智表示,由于人形能夠適應(yīng)各種環(huán)境,同時(shí)人類(lèi)社會(huì)環(huán)境主要是為人類(lèi)而定制,例如樓梯的結(jié)構(gòu)、門(mén)把手的高度、被子的形狀等等,因此如果能夠打造一個(gè)有泛應(yīng)用的通用機(jī)器人,人形是最合適的形態(tài)。
而在人形機(jī)器人小腦方面,姚期智指出,搭建在機(jī)器人實(shí)體上、扮演小腦角色的是一套機(jī)器人運(yùn)動(dòng)控制算法。上層是固態(tài)規(guī)劃層,下層則是基于動(dòng)力學(xué)的實(shí)時(shí)全身運(yùn)動(dòng)控制,其可以計(jì)算發(fā)給電機(jī)關(guān)節(jié)精確的指令并搭配對(duì)應(yīng)狀態(tài)的固定器。
但他同時(shí)表示,在構(gòu)建小腦的算法端上行業(yè)還未實(shí)現(xiàn)對(duì)于機(jī)器人的更好控制,因此行業(yè)也在利用人工智能、強(qiáng)化學(xué)習(xí)的方法研究靈活度更高的對(duì)應(yīng)策略。
在這其中,運(yùn)用強(qiáng)化學(xué)習(xí)框架的好處在于沒(méi)有了模型的限制,因此它在復(fù)雜與不確定的環(huán)境下能夠展現(xiàn)出更強(qiáng)的適應(yīng)能力,同時(shí)它能夠利用人體運(yùn)動(dòng)實(shí)際的數(shù)據(jù),給予深度學(xué)習(xí)更好的引導(dǎo)。
“通過(guò)強(qiáng)化學(xué)習(xí),機(jī)器人能夠用自然的方式來(lái)模擬人態(tài)的行走,這樣也使它消耗更低的能耗,但強(qiáng)化學(xué)習(xí)應(yīng)用的難題就是其所需要的樣本非常多,這也成為一直困擾著行業(yè)的一大挑戰(zhàn)。”姚期智說(shuō)道。
因此,如何通過(guò)創(chuàng)新算法的架構(gòu),實(shí)現(xiàn)更高效率的樣本學(xué)習(xí)能力是行業(yè)需要持續(xù)探索的方向。
此外,在姚期智看來(lái),另一個(gè)困擾強(qiáng)化學(xué)習(xí)的難題則是人形機(jī)器人的泛化性,即系統(tǒng)對(duì)于這些任務(wù)及其環(huán)境中間的不確定性和干擾,能不能夠泛化的更好。
“谷歌日前推出的palm-e是行業(yè)非常重要的技術(shù)路線,但這一框架也存在著問(wèn)題,即它的下一層不一定能夠很好執(zhí)行上一層的規(guī)劃,尤其是中間如果發(fā)生一些意外的干擾。而解決的方法在于首先需要像大語(yǔ)言模型一樣,給機(jī)器人描述一下他所需要的任務(wù),機(jī)器人就按照這個(gè)任務(wù)來(lái)執(zhí)行,比如一個(gè)搬箱子的工作,它的右邊是一個(gè)攝像頭,在這里面它的視覺(jué)語(yǔ)言模型就通過(guò)這個(gè)視角,檢測(cè)是不是有意外發(fā)生,如果有的話怎么樣能夠糾正,看到這個(gè)箱子掉到地上,這個(gè)機(jī)器人能夠想出一個(gè)方法最后把它撿起來(lái),最后能夠完成任務(wù)。”姚期智解釋稱(chēng)。
工業(yè)與家庭場(chǎng)景落地
在世界機(jī)器人大會(huì)期間,人形機(jī)器人具體的落地場(chǎng)景。也成為了與會(huì)者密集討論的議題。
優(yōu)必選科技創(chuàng)始人周劍在論壇現(xiàn)場(chǎng)接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示,在未來(lái),人形機(jī)器人有兩個(gè)最為理想的落地場(chǎng)景:“首先是制造業(yè)場(chǎng)景的應(yīng)用。我們看到當(dāng)下所有的汽車(chē)生產(chǎn)線上的工業(yè)機(jī)械手臂還需要幾十萬(wàn)生產(chǎn)線上的工人來(lái)操作,而人形機(jī)器人有望實(shí)現(xiàn)對(duì)他們的替代。其次,在生活環(huán)境中那些符合人體工程學(xué)的工作也適合人形機(jī)器人發(fā)揮作用,例如‘陪伴,工作、學(xué)習(xí)與生活’。”
而這就意味著,人形機(jī)器人未來(lái)必然走向“通用化”,那么為何在已經(jīng)存在一些標(biāo)準(zhǔn)化機(jī)器人的情況下,行業(yè)仍然需要通用機(jī)器人?
“這是技術(shù)走向更前瞻性、通用性的問(wèn)題,行業(yè)希望有一種機(jī)器人在誕生后,可以完成所有任務(wù)。而不是每種工作都要去開(kāi)發(fā)特定的機(jī)器人,因此目前通用人形機(jī)器人的形態(tài)是大家公認(rèn)的最好形態(tài)。”一位業(yè)內(nèi)人士在現(xiàn)場(chǎng)對(duì)記者解釋稱(chēng)。
但值得注意的是,在當(dāng)下這個(gè)硬件和軟件等技術(shù)都邁向新臺(tái)階的關(guān)鍵節(jié)點(diǎn),人形機(jī)器人技術(shù)實(shí)際上還面臨許多瓶頸。
追覓科技研究院負(fù)責(zé)人喻超接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)指出,人形機(jī)器人行業(yè)公認(rèn)的一個(gè)事實(shí)是,行業(yè)要向前發(fā)展,必先跨越“三座大山”,即:技術(shù)難度大,制造成本高昂,以及商業(yè)化難度高。
清華大學(xué)交叉信息研究院助理教授、星動(dòng)紀(jì)元?jiǎng)?chuàng)始人陳建宇則在現(xiàn)場(chǎng)表示,對(duì)硬件來(lái)說(shuō),行業(yè)希望機(jī)器人同時(shí)兼顧力量、速度、精度以及成本,但是目前所有技術(shù)都無(wú)法同時(shí)兼顧這幾項(xiàng),例如液壓的技術(shù)速度和力量都很強(qiáng),但是它成本太貴。
而高減速比諧波技術(shù),可能精度比較高,但是靈巧性又降低;而新的轉(zhuǎn)制期技術(shù)雖然成本比較低,但是卻犧牲了載荷和精度,因此現(xiàn)在還沒(méi)有一個(gè)能夠兼顧所有達(dá)到我們滿意的情況。
而在軟件方面,陳建宇表示,行業(yè)目前還無(wú)法很好兼顧其泛化性和控制任務(wù)操作的精巧性,“控制的算法以及強(qiáng)學(xué)習(xí)算法,我們可以做到比較精準(zhǔn)的控制,但這基本上目前還是一個(gè)任務(wù)對(duì)應(yīng)一個(gè)模型或者一個(gè)特別的算法,很難做到泛化。”
在他看來(lái),現(xiàn)在行業(yè)能做的就是針對(duì)不同的應(yīng)用場(chǎng)景,選擇不同的技術(shù)路線,來(lái)進(jìn)行下一步的平衡。