tube69最新,特级全黄久久久久久久久,51久久夜色精品国产水果派解说

智元機(jī)器人聯(lián)合香港大學(xué)推出的UniVLA入選 RSS 2025 并開源！ 發(fā)布時(shí)間：2025-05-14 18:01:00

導(dǎo) 言

現(xiàn)有具身模型沒有充分利用更加多樣的視頻數(shù)據(jù)，難以適應(yīng)未訓(xùn)練過的新任務(wù)與新場景，通用性受限。為此，智元機(jī)器人聯(lián)合香港大學(xué)提出UniVLA：一個(gè)具備跨機(jī)器人本體、場景與任務(wù)泛化能力的通用策略學(xué)習(xí)系統(tǒng)。它構(gòu)建了以任務(wù)為中心的隱式動(dòng)作空間，充分利用語言描述與視頻示范進(jìn)行策略學(xué)習(xí)，實(shí)現(xiàn)了從“看視頻”、“聽指令”到“動(dòng)手操作”的通用控制。該成果已被機(jī)器人頂會(huì) RSS 2025 認(rèn)可，同時(shí)代碼也已經(jīng)開源，并成為全球頂尖機(jī)器人賽事 AgiBot World Challenge @ IROS 2025【點(diǎn)擊文字跳轉(zhuǎn)相關(guān)文章】的baseline之一。

想象一下在不遠(yuǎn)的未來，通用機(jī)器人真正走進(jìn)了日常生活。我們希望當(dāng)你發(fā)出一條自然語言指令，無論是“幫我給貓喂食”，還是“幫我關(guān)掉臺(tái)燈”，它都能夠理解你的意圖，并準(zhǔn)確地完成動(dòng)作——不依賴預(yù)定義的任務(wù)模板，也不受限于曾經(jīng)訓(xùn)練過的數(shù)據(jù)分布。

然而，現(xiàn)有的機(jī)器人系統(tǒng)往往依賴人工標(biāo)注的數(shù)據(jù)與固定的動(dòng)作空間，面對那些未被明確訓(xùn)練過的任務(wù)或非典型場景，它們常常會(huì)因?yàn)椤拔匆娺^”“無定義”而選擇拒絕執(zhí)行，嚴(yán)重限制了通用性的發(fā)揮。有沒有一種能夠從更廣泛的數(shù)據(jù)來源，如從互聯(lián)網(wǎng)上的人類視頻中學(xué)習(xí)動(dòng)作的方法，并實(shí)現(xiàn)多種場景、任務(wù)的真正通用和泛化呢？

最近，智元機(jī)器人聯(lián)合香港大學(xué)基于此提出了全新框架——UniVLA，一個(gè)跨本體、跨場景、跨任務(wù)的通用策略學(xué)習(xí)系統(tǒng)，就像為機(jī)器人安裝了“跨界大腦”，實(shí)現(xiàn)了從“看視頻”、“聽指令”到“動(dòng)手操作”的通用控制。

UniVLA：跨本體、跨場景、跨任務(wù)的通用策略

? 論文地址：

https://www.arxiv.org/abs/2505.06111

? 開源代碼

https://github.com/OpenDriveLab/UniVLA

以往的通用模型如 RT-2、OpenVLA 雖已初具通用模型之勢，但依然存在諸多瓶頸：

訓(xùn)練數(shù)據(jù)源單一：訓(xùn)練時(shí)只使用大量人工采集的真機(jī)示范數(shù)據(jù)，沒有充分利用更加多樣的視頻數(shù)據(jù)。
缺乏通用性和跨平臺(tái)適配能力：換個(gè)機(jī)器人，動(dòng)作空間就全得重來。
推理慢且精度不穩(wěn)：自回歸預(yù)測方式對錯(cuò)誤累積敏感，執(zhí)行效率不高。

UniVLA 選擇了一條更具前瞻性的路徑：不再直接預(yù)測每一步動(dòng)作，而是構(gòu)建一個(gè)任務(wù)中心的隱式動(dòng)作空間，在這個(gè)“中間表征”上統(tǒng)一訓(xùn)練與泛化策略，不僅可以有效解決上述瓶頸，同時(shí)也能夠以更低的計(jì)算資源消耗實(shí)現(xiàn)更優(yōu)的效果。

UniVLA的核心創(chuàng)新在于構(gòu)建了以任務(wù)為中心的隱式動(dòng)作空間（task-centric latent action space），讓模型可以從海量無標(biāo)簽視頻中學(xué)習(xí)任務(wù)相關(guān)且高效泛化的動(dòng)作表示，只在人類視頻數(shù)據(jù)(Ego4D)上預(yù)訓(xùn)練，就可以在LIBERO仿真平臺(tái)上達(dá)到SOTA級(jí)別效果。經(jīng)過預(yù)訓(xùn)練后同一模型可以同時(shí)完成操作與導(dǎo)航等任務(wù)，實(shí)現(xiàn)了通用的動(dòng)作學(xué)習(xí)。

為什么是隱式動(dòng)作？

因?yàn)樗取皦嚎s信息”，又“對齊知識(shí)”

傳統(tǒng)的通用模型如OpenVLA采用自回歸策略直接預(yù)測每一步動(dòng)作，推理速度慢且魯棒性不強(qiáng)。UniVLA則另辟蹊徑，將動(dòng)作預(yù)測劃分為三個(gè)階段：

1. 隱式動(dòng)作學(xué)習(xí)：

從海量跨領(lǐng)域視頻中“默默學(xué)習(xí)”，通過逆動(dòng)力學(xué)建模并使用VQ-VAE進(jìn)行離散化，構(gòu)建出對任務(wù)理解更強(qiáng)、更緊湊的隱式動(dòng)作空間；

2. 通用策略預(yù)訓(xùn)練：

借助Prismatic-7B等大模型架構(gòu)，將視覺觀察與語言指令編碼為統(tǒng)一輸入，預(yù)測隱式動(dòng)作序列，從而實(shí)現(xiàn)具身無關(guān)的通用策略；

3. 動(dòng)作解碼與部署：

使用輕量化解碼器將隱式動(dòng)作轉(zhuǎn)譯為真實(shí)機(jī)器人控制信號(hào)，作為下游的控制策略，從而能夠在多款機(jī)器人平臺(tái)上進(jìn)行快速適配和部署，輕裝上陣、高效執(zhí)行。

UniVLA的前兩階段訓(xùn)練策略

相比 OpenVLA 那種直接在動(dòng)作空間里“硬解”的做法，UniVLA 的“隱式編碼”（Latent Encoding）策略有幾個(gè)顯著優(yōu)勢：

1. 可以更好的利用視頻數(shù)據(jù)，泛化范圍大：

只需視頻和語言，就能從互聯(lián)網(wǎng)視頻數(shù)據(jù)中學(xué)技能，提取動(dòng)作；

2. 壓縮維度，降低計(jì)算成本：

動(dòng)作空間被有效壓縮，推理速度從<5Hz 提升至 10Hz+；

3. 適配靈活，遷移效率高：

由于隱式動(dòng)作具有通用性，故只需輕量微調(diào)，就能部署到不同機(jī)器人上，下游數(shù)據(jù)效率拉滿。

數(shù)據(jù)算力所需更少，性能反而更強(qiáng)

相比OpenVLA，UniVLA在計(jì)算效率和適配能力上表現(xiàn)出壓倒性優(yōu)勢：預(yù)訓(xùn)練GPU時(shí)長僅為其1/20，卻在多個(gè)任務(wù)和平臺(tái)上實(shí)現(xiàn)性能的全面超越。

在LIBERO、CALVIN等多個(gè)操控基準(zhǔn)測試中，UniVLA展現(xiàn)出優(yōu)越的通用性與任務(wù)適應(yīng)能力，在四項(xiàng)評(píng)估指標(biāo)中成功率平均提升達(dá)18.5%。更值得注意的是，僅使用人類視頻預(yù)訓(xùn)練(Ego4D)，UniVLA也能在LIBERO-Goal中達(dá)到SOTA效果。同時(shí)只需要10%的數(shù)據(jù)就在LIBERO-Goal上達(dá)到了SOTA效果（62.4%），優(yōu)于同樣數(shù)據(jù)量訓(xùn)練下的OpenVLA（11.6%）和 OpenVLA-OFT（43.0%），數(shù)據(jù)利用效率如同開掛。

LIBERO 實(shí)驗(yàn)結(jié)果

更重要的是，UniVLA以其結(jié)構(gòu)化的隱式動(dòng)作空間設(shè)計(jì)，天然具備擴(kuò)展性與數(shù)據(jù)可擴(kuò)展性：無論是引入更多人類示范作為提取隱空間表征的與訓(xùn)練，還是增加新的機(jī)器人平臺(tái)僅通過輕量微調(diào)即可遷移適配，實(shí)現(xiàn)跨具身、跨視角、跨任務(wù)的全面通用。

在真實(shí)機(jī)器部署中，受益于僅12M參數(shù)的簡單動(dòng)作解碼器以及高效的隱空間動(dòng)作表征，UniVLA可以實(shí)現(xiàn)（閉環(huán)）10Hz以上的實(shí)時(shí)推理控制，在多個(gè)任務(wù)中（如“清理案板”、“疊漢諾塔”等）展現(xiàn)出高精度、高魯棒的操作能力，平均成功率達(dá)到80%+，推理時(shí)延遠(yuǎn)低于OpenVLA，打通了通用大模型到落地應(yīng)用的可能路徑。

UniVLA在真機(jī)實(shí)驗(yàn)表現(xiàn)出色

同時(shí)在設(shè)計(jì)的若干泛化實(shí)驗(yàn)中，面對各種泛化挑戰(zhàn)，它不僅不社恐，還能“快準(zhǔn)穩(wěn)”上手。通用的隱式動(dòng)作空間+異構(gòu)數(shù)據(jù)的預(yù)訓(xùn)練，讓它不止是“聰明”，而且真“通用”。

UniVLA在不同泛化條件下的表現(xiàn)

多虧了UniVLA的‘隱式動(dòng)作+通用訓(xùn)練’，UniVLA能夠充分在大量異構(gòu)數(shù)據(jù)(操作、導(dǎo)航甚至人類視頻)中進(jìn)行學(xué)習(xí)，并能夠有效容納足夠多的知識(shí)，照單全收，越學(xué)越強(qiáng)。

UniVLA的異構(gòu)數(shù)據(jù)擴(kuò)展能力

少樣本情況下UniVLA性能優(yōu)勢盡顯，在LIBERO長程任務(wù)基準(zhǔn)上僅用10%數(shù)據(jù)（不到50條demo，平均每個(gè)任務(wù)僅5條）擊敗了全量數(shù)據(jù)微調(diào)的OpenVLA。

UniVLA在少樣本情況下的表現(xiàn)

UniVLA的方法不僅代表了視覺語言動(dòng)作模型（VLA）領(lǐng)域的一次突破，更為“通用機(jī)器人智能”提供了新的思考與貢獻(xiàn)：從像素重建走向語義解耦的隱式動(dòng)作學(xué)習(xí)、從高耗能預(yù)訓(xùn)練走向輕量高效的跨本體適配、從單一機(jī)器人數(shù)據(jù)閉環(huán)走向人類視頻與多本體數(shù)據(jù)的開放協(xié)同。

- END -

上一篇

下一篇

午夜精品区一区二区三_日日摸日日碰夜夜爽无_久久青青草原_在线看的av_我想看国产一级毛片_中文无码vr最新无码av专区

智元遠(yuǎn)征A2

智元遠(yuǎn)征A2-W

智元靈犀X1

智元靈犀 X2

D1Ultra

智元精靈G1

具身智能一站式開發(fā)平臺(tái)

具身智能全棧數(shù)采方案

數(shù)據(jù)服務(wù)

智元絕塵C5

夏瀾

Menu

首頁

產(chǎn)品

開源

智元商城

新聞資訊

關(guān)于我們

招賢納?

聯(lián)系我們

公司新聞

智元遠(yuǎn)征A2成全球首個(gè)同時(shí)擁有中美歐認(rèn)證...

靈動(dòng)有生命，親和全智能 | 智元靈犀X2...

世界模型新突破！智元機(jī)器人開源EVAC框...