0
作者 | 賴文昕
編輯 | 陳彩嫻
上個月末,世界機器人大會(WRC 2024)在北京剛剛結束,27 款人形機器人果然成為了會場中的主角。
夾爪疊衣服、做漢堡,靈巧手抓雞蛋、演手舞,輪式進商超,雙足滿場逛......在這場硅基生命的大 party 里,人形機器人們的才藝都得到了充分的展示,特別是在操作能力上有了顯著提升。
在具身智能時代,人形機器人代表著人類創造者對通用機器人終極形態的一大向往。
前文提到,為了在技術與商業落地上快人一步,具身智能玩家們在構型上對操作能力和移動能力各自做出取舍,其中上肢的操作能力因最能顯現智能水平而被寄予厚望,逐漸成為學術圈與產業界的焦點,因此衍生了對二指夾爪、三指、五指靈巧手等多種末端執行器的探討和落地。(插入鏈接)
然而,無論是否選擇人形,在這場具身智能的較量中,除了最外顯的軀殼,玩家們還需要解決最核心的問題:實現智能,攻克軟件與硬件的耦合。
為了攻克這一關卡,具身智能領域的不同團隊也有差異化思考,選擇了不同的解決方案來支撐機器人的能力與智能水平。
技術路線如散開的蛛網蜿蜒開來——端到端的暴力美學是否可行?分層決策是否更有優勢?「大腦」和「小腦」誰的優先級更高?
選手們已各就各位,劍指具身智能。
端到端的暴力美學
具身智能漸成顯學后,機器人運行的四大板塊(感知、規劃決策、控制和執行),逐漸被類人化地劃分為負責解決高層次認知或決策問題(high level)的「大腦」,以及負責基礎層面的功能性問題(low level)的「小腦」。
兩大系統各司其職又互相合作:「大腦」負責解析任務需求,整合來自傳感器的信息,進行任務的細化和策略規劃;「小腦」則專注于精細的運動控制,確保在「大腦」制定的策略指導下,機器人能夠準確無誤地執行動作并進行必要的調整。
這種劃分方法往往被稱為分層決策結構。不過,除了分層決策外,實現這一過程采用的另一種主要方法則是端到端架構。
端到端架構將「大腦」和「小腦」合為一體,通過單一的神經網絡,直接將任務目標轉化為控制信號,實現從輸入到輸出的無縫銜接,是一個黑盒。
特斯拉的 Optimus 機器人與谷歌的 RT-2 項目便是使用端到端模型的典型代表。
在端到端神經網絡的加持下,Optimus 機器人能通過搭載的 2D 攝像頭以及集成的觸覺和壓力感應器所收集的信息,直接生成用于驅動關節的指令序列,能完成分揀、放置、疊衣服等任務。
相似地,RT-2 項目旨在訓練一個能夠從視覺輸入直接學習到動作輸出的機器人模型。作為一個基于 Transformer 的模型,RT-2 在互聯網上的海量數據中對視覺-語言模型(VLM)進行預訓練,然后在具體的機器人任務上進行微調,結合視覺和動作數據,形成了一個能夠將圖像直接轉換為控制指令的視覺-語言-動作模型(VLA),能完成將草莓放入特定的碗中、將足球移至籃球旁等任務。
RT-2 還展示出類人的學習和行動能力。傳統機器人需要經過專門訓練才能識別和處理垃圾,RT-2 則能從網絡數據中學習垃圾這個抽象概念,理解吃完的薯片袋或香蕉皮是垃圾。識別垃圾后,在無動作訓練的情況下,RT-2 還學會了如何扔垃圾。
而除了大廠外,目前也有少數海外團隊在走端到端路線,比如由 Karol Hausman、Sergey Levine 和 Chelsea Finn 這三位 AI + Robotics 大牛創立的 Physical Intelligence。
這么看來,端到端模型的一步到位與強大的學習能力確實是通往具身智能的「康莊大道」,但為什么縱觀全球,選擇端到端方案的團隊卻寥寥無幾呢?
數據和算力,是橫在具身智能創企們探索端到端的兩座大山——端到端的暴力美學需要通過海量的數據和算力來驅動,如此「燒錢」的做法絕非大多數企業,特別是小規模創業團隊所可以模仿的。
一位具身智能創業者認為,端到端是未來機器人模型的重要組成部分,但不能完全依賴它,否則將面臨諸多挑戰?!付说蕉嗽跈C器人訓練中主要依賴數據,但以現在的方法加上不足的數據,收斂性會非常差?!顾赋?,「端到端目前難以深入理解數據,如在處理多維物體抓取時可能無法準確把握其空間結構,需輔以物理知識以糾正?!?/p>
更早些時,端到端方案由特斯拉在自動駕駛領域引爆。到了今天,特斯拉在 Optimus 機器人的控制系統中也加上了全自動駕駛(FSD)控制器,以提高視覺處理和實時決策的能力,讓機器人在無監督下自主完成復雜任務。更何況,Optimus 還能走進自家的汽車工廠實訓,這意味著至少在工業場景下, Optimus 具有天然的數據沃土。
至于 RT-2,此工作建立在 RT-1 之上,后者使用 13 個機器人、耗時 17 個月,采集了 13 萬條數據,使其在谷歌美國加州的辦公室廚房環境中表現出色。再看 RT-2 的成員名單,團隊一共有 54 人,人數超過不少具身智能初創企業。
而且,端到端方案存在的一個問題是,數據量的激增和頻繁調用模型還會拖慢機器人的決策速度。
以 RT-2 為例,RT-2 集成了谷歌的具身多模態語言模型 PaLM-E,但在端到端架構下,機器人的決策速度有所降低,運行速度僅為 1~3 Hz,即反應時間可能長達 0.3 ~1 秒。這對于部分要求敏捷反應的任務而言略顯遲緩,自然阻礙其在多變的實際場景下的應用潛力。
當然,如果海量數據和算力得以保障,又或者出現新的技術突破,大模型的暴力美學依舊很有希望在具身智能領域復現,因此端到端模型仍是業內公認通向具身智能的主要路徑之一。
「我相信端到端、VLA 模型在 3~5 年內能有突破?!垢道~創始人兼 CEO 顧捷對端到端的進展表示樂觀,「因為算力、硬件本體以及以動作數據為核心的多模態數據會越來越多、越來越好?!?/p>
目前,千尋智能是國內少數選擇端到端技術路線的具身智能創企。
首席科學家高陽是清華叉院助理教授,在伯克利讀博士與博士后期間同 Pieter Abbeel、Trevor Darell 和 Sergey Levine 三位合作緊密。從 2016 年起,高陽便開始了端到端模型的研究,他指出,「端到端最大難點在于,這么大的模型如何訓練才能夠泛化,不只是簡單預測動作,而是讓預測變得可泛化,讓神經網絡變得部分可解釋、有因果性等等?!?/p>
針對數據的質量與數量問題,高陽帶領清華團隊和 Pieter Abbeel 合作,發布了 Any-point Trajectory Model(ATM)框架。ATM 框架的創新之處在于通過預訓練一個軌跡模型,專注視頻中任意點未來軌跡的預測,而非整個圖像的全面分析——這種選擇性的關注點大幅降低了計算負荷,并加速了模型的運行效率。
因此,與傳統方法相比,ATM 只需少量標注數據就能完成訓練,還兼具魯棒性。此工作也被機器人頂會 RSS 2024 接收,得到了所有審稿人的滿分評價。根據千尋智能最新發布的 demo 來看,他們搭載 ATM 模型的機器人在制作咖啡時能識別透明反光的玻璃杯,推開擋住杯子的紙巾盒,還能扶起倒下的紙杯。
分層決策,各司其職
與端到端的黑盒不同,分層決策模型通過將感知、規劃決策、控制和執行各模塊分解為多個層級,分別突破「大腦」和「小腦」,利用不同的神經網絡進行訓練,最終再整合起來。
分層決策架構最知名的選手是與 OpenAI 合作的 Figure AI。
上個月問世即爆火的 Figure 02 采用三層級方案:頂層集成了 OpenAI 的大模型,負責視覺推理和語言理解(推測為 GPT-4V);中間層是神經網絡策略(NNP),負責快速、靈巧的操作,將視覺信息直接轉換為動作指令,并以高達 200hz 的頻率輸出這些指令;底層是全身控制器,負責提供穩定的基礎控制,在接收 NNP 的動作指令后,能以 1khz 的頻率輸出各關節的扭矩指令。
分層決策模型的最直接的優點便是即時性——Figure 02 高達 200hz 的輸出頻率意味著它執行動作的延時只有 5ms,比谷歌快了上百倍。
除此之外,因為各層級還能再細分為多個小模型,與端到端架構相比,分層決策架構還具有更高的可解釋性和可控性,且由于可以逐一精準突破,在訓練單個模型中所需的數據量相對更少。
「所有人都在賭 scaling law 是可行的,但到底是數據不夠還是這個方法在具身智能不可行,目前尚不可知?!寡趴杀葯C器人創始人兼 CEO 邱迪聰表達了對純端到端架構的顧慮,「最可怕的點在于這是個無法證實或證偽的黑洞,只能一直加量,像煉丹一樣?!?/p>
因此,出于對成本和技術可實現性的考量,分層決策模型現已成為國內大多數具身智能初創公司的選擇。除了簡單劃分為「大腦」和「小腦」外,不同的團隊也根據自己的理解設計出各自的解決方案。
比如,上個月智元在發布首款產品遠征 A1 時還推出了分為四級的具身智腦框架 EI-Brain ,包括技能級的云端超腦、技能級的大腦、指令級的小腦以及伺服級的腦干。
對于「大腦」,他們再細分為通用大模型和動作大模型兩個模塊。通用大模型負責認知世界,拆解任務步驟并感知物體位置,再由動作大模型完成具體動作,而且兩者都是自研的。
智元機器人合伙人兼營銷服副總裁姜青松表示,與由業界推動、數據來自互聯網的通用大模型不同,動作大模型的數據來自于實際場景,需要采集真實數據?!竸幼鞔竽P偷臄祿趬靖?,需要深入實際環境,如工業場景,需要直接在工廠部署才能獲取到關鍵的真實數據?!?/p>
穹徹智能則是從第一性原理出發打造兩級火箭大模型:一級火箭是實體世界大模型,能在訓練中讓機器人掌握常識性的、低維的操作物理表征,從而理解客觀物理事實,并與人類概念對齊;二級火箭是機器人行為大模型,能充分耦合操作物理常識表征和執行體的高精度力反饋能力,從而作出仿人化的力位混合的行為決策,讓操作兼具魯棒性和通用性。
當兩級火箭串在一起做端到端的聯合訓練時,數據量需求就會大幅降低、增長斜率更加明顯,使訓練變得足夠的低成本和可規?;?。
對于二級火箭,穹徹智能創始人、上海交通大學教授盧策吾認為,如果力這環不解決,具身智能很難落地。
「我們展示刮胡子技能,就是想說,具身智能的交互是需要高精密操作和高頻接觸的?!贡R策吾解釋道,「操作分為高頻接觸與非高頻接觸,非高頻接觸是做空間中的規劃,相對的不確定性較小,但高頻接觸涉及力反饋,對決策和大腦提出更高的要求?!?/p>
同樣采用分層決策方案的還有推出三層級大模型系統的銀河通用。
硬件(如末端執行器)為最底層,旨在打造低成本的通用移動操作平臺;中間層是負責 low level 執行的具身技能模型,是由 3D 視覺驅動的通用導航和移動操作,能完成自主建圖、自主導航、物體抓取、開門開抽屜開冰箱、掛衣服疊衣服柔性物體操作等任務;最上層是負責 high level 推理規劃的多模態大模型,可以調度中間技能 API,來實現完整的從任務的感知、規劃到執行的全流程。
值得一提的是,銀河通用在中間的「小腦」層采用 100% 仿真合成數據,不用任何真實世界數據訓練可泛化的技能,以求解決數據不足的痛點。
大腦 vs.小腦
顯然,無論是哪種分層決策模型,都需要解決「大小腦」,實現從感知到執行的閉環。
先說說「大腦」。
「大腦」負責 high level 的感知和規劃決策系統,是多模態大模型。與傳統機器人相比,具身智能時代的機器人在這兩個版塊的泛化性和自主性都有了大幅提升。
首先,在感知環節,傳統機器人的感知技術主要依賴于各種傳感器來獲取內部狀態信息和外部環境信息,如視覺、力覺、觸覺、嗅覺和味覺等,實現對物體的識別、測量距離、避開障礙物等功能。
而具身智能則更進一步,不僅包括了傳統機器人的感知技術,還強調智能體與環境的交互和融合,以及在動態環境中自主、實時的決策和學習?;诙嗄B大模型(或更高階的世界模型),機器人能學習、理解、融合和對齊各傳感器采集而來的跨模態信息,實現對復雜環境的魯棒建模與更精準、通用的感知。
到了規劃決策板塊,在大模型時代前,這主要由人類工程師負責,先理解任務、拆解動作,再編程給機器人下達具體指令?,F在大模型直接化身 AI 工程師,使機器人能自主規劃任務,提升了環境適應性和靈活性。
目前,業內將主打產品設為「大腦」的企業主要是穹徹智能和有鹿機器人,雙方都主張研發通用的「大腦」來賦能包括但不限于人形機器人的載體上。
穹徹智能發布的具身大腦 Noematrix Brain 包括自研實體世界大模型和機器人行為大模型,使大腦具備規劃、記憶、執行的核心能力。
因此,搭載穹徹大腦的實體機器人能對無限自由度物體做出操作,如無需預建模即可折疊雜亂衣物,以及執行不規則曲面任務,如刮胡子和削黃瓜皮。在穹徹的計劃中,Noematrix Brain 將與各種類型的機器人本體、甚至工業設備都能有機結合。
而專注于開發「通用具身大腦」的有鹿機器人,也旨在為各類專業機器和人形機器人形態提供通用大腦。
最開始有鹿甚至打算僅以軟件形式進行銷售,但考慮到軟件的無形性,很難在前期讓客戶切實感受到智能性,轉而采取軟硬件結合的形式,推出通用具身大腦 Master 2000?!高@不僅限適用于工業、清潔、物流等領域,如叉車和鏟車等,也適用于人形機器人,即插即用?!褂新箼C器人介紹道,「具身智能并不局限在人形上?!?/p>
再看負責 low level 控制和執行模塊的「小腦」。
它需要將「大腦」的決策轉換為動作指令并執行出來,并將傳感器采集的數據傳遞回去,一般由多個具體的小模型組合(如物體抓取模型、擰螺絲模型等),類似于一個可不斷擴充、升級的技能庫。
但與純軟件的「大腦」不同,「小腦」作為連接智能與身體的中間環節,承擔著耦合軟硬件的作用,依賴海量動作數據來訓練。數據不足作為具身智能的最大痛點,也主要集中于此,所以關于仿真數據、模擬器、Sim2Real的探索也愈發火熱。
不少從業者認為,當前具身智能的研究重點在于解決機器人的 low level 問題,因為 high level 已由大模型解決。
「low level 涉及實際的物理交互,如抓取、移動物體等基本技能?;A任務未解決前,大模型的頂層規劃能力無法有效發揮,因為機器人可能連簡單的動作如開冰箱門都做不到。因此,實現物理世界的順暢交互是關鍵?!骨迦A具身智能實驗室主任、星海圖聯創許華哲說。
香港科技大學機器人研究院創始院長、戴盟首席科學家王煜則提出了「具身技能」的概念?!溉绻丫呱碇悄芊Q為大腦,那么中腦或小腦則是大關節控制,精細操作為細小腦,也可叫具身技能,需要有硬件、學習方法、數據的支持?!雇蹯辖淌诮忉尩?,「不到具身技能的層次其實無法發揮人形機器人的作用?!?/p>
結語
無論和哪一位具身智能創業者聊起其創業契機,必然會得到的回答之一便是「大模型讓通用機器人有了實現的可能」。
短短一年,具身智能雄起,賽道之火熱,儼然已瓜分了大模型的主角光環。
選擇端到端還是分層決策架構,有點類似于是否「直接上人形」的討論,取決于對項目落地速度和可靠性的要求——
前者是「登月派」,多由明星學者或有強融資能力的創始人坐鎮,不需考慮短期的商業化落地,可以自由探索,目標是像 Open AI 一樣直接「憋個大招」;
后者是「落地派」,期望逐步突破各應用場景,因此穩定性和模型的可解釋性變得重要,需要更便于逐層優化和約束的分層結構來加速商業化落地的進程。
「隨著數據和訓練能力的增長,分層決策結構中各模塊可能會逐步打通,最終融合簡化成一個端到端模型?!姑绹鵀硡^創企 Anyware Robotics 創始人兼 CEO 湯特認為路線選擇是動態變化的,在足夠大的市場里,任何一種路都有可能走通。
「就像特斯拉最初做自動駕駛也是采用分層結構,隨著公司發展,逐步向端到端融合過渡,現在做人形機器人就直接端到端了?!?/p>
開普勒機器人 CEO 胡德波在與客戶的交流中也發現,需求方并不介意技術路徑究竟是分層還是端到端,重點是在于穩定可靠、高安全性以及性價比。
「從商業落地和實用主義的角度出發,我們不排斥各種算法,比如現在是大小腦,但如果有了特別好的端到端模型,參數量小、部署效果好,那我們也會使用?!?/p>
不過,無論是端到端的暴力美學,「大小腦」的高速實時協同,還是技術路徑的動態變化,數據都是導致訓練效果參差不齊的最大阻礙。
因此,在連續做出對構型和模型架構的抉擇后,具身智能玩家們還得共同面臨數據這個公認的最大痛點。
如何提高數據的質量和數量?模仿學習與強化學習哪種訓練效果更優?真實數據和仿真數據誰更勝一籌?
讓我們且走且看。
雷峰網本文作者anna042023將持續關注具身智能,歡迎添加雷峰網(公眾號:雷峰網)作者交流,互通有無。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。