午夜精品区一区二区三_日日摸日日碰夜夜爽无_久久青青草原_在线看的av_我想看国产一级毛片_中文无码vr最新无码av专区

智元機器人聯合香港大學推出的UniVLA入選 RSS 2025 并開源! 發布時間:2025-05-14 18:01:00


導 言 

現有具身模型沒有充分利用更加多樣的視頻數據,難以適應未訓練過的新任務與新場景,通用性受限。為此,智元機器人聯合香港大學提出UniVLA:一個具備跨機器人本體、場景與任務泛化能力的通用策略學習系統。它構建了以任務為中心的隱式動作空間,充分利用語言描述與視頻示范進行策略學習,實現了從“看視頻”、“聽指令”到“動手操作”的通用控制。該成果已被機器人頂會 RSS 2025 認可,同時代碼也已經開源,并成為全球頂尖機器人賽事 AgiBot World Challenge @ IROS 2025【點擊文字跳轉相關文章】 的baseline之一。


想象一下在不遠的未來,通用機器人真正走進了日常生活。我們希望當你發出一條自然語言指令,無論是“幫我給貓喂食”,還是“幫我關掉臺燈”,它都能夠理解你的意圖,并準確地完成動作——不依賴預定義的任務模板,也不受限于曾經訓練過的數據分布。


然而,現有的機器人系統往往依賴人工標注的數據與固定的動作空間,面對那些未被明確訓練過的任務或非典型場景,它們常常會因為“未見過”“無定義”而選擇拒絕執行,嚴重限制了通用性的發揮。有沒有一種能夠從更廣泛的數據來源,如從互聯網上的人類視頻中學習動作的方法,并實現多種場景、任務的真正通用和泛化呢?


最近,智元機器人聯合香港大學基于此提出了全新框架——UniVLA,一個跨本體、跨場景、跨任務的通用策略學習系統,就像為機器人安裝了“跨界大腦”,實現了從“看視頻”、“聽指令”到“動手操作”的通用控制。


圖片

UniVLA:跨本體、跨場景、跨任務的通用策略


論文地址:

https://www.arxiv.org/abs/2505.06111

? 開源代碼

https://github.com/OpenDriveLab/UniVLA


以往的通用模型如 RT-2、OpenVLA 雖已初具通用模型之勢,但依然存在諸多瓶頸:


  • 訓練數據源單一:訓練時只使用大量人工采集的真機示范數據,沒有充分利用更加多樣的視頻數據。

  • 缺乏通用性和跨平臺適配能力:換個機器人,動作空間就全得重來。

  • 推理慢且精度不穩:自回歸預測方式對錯誤累積敏感,執行效率不高。


UniVLA 選擇了一條更具前瞻性的路徑:不再直接預測每一步動作,而是構建一個任務中心的隱式動作空間,在這個“中間表征”上統一訓練與泛化策略,不僅可以有效解決上述瓶頸,同時也能夠以更低的計算資源消耗實現更優的效果。


UniVLA的核心創新在于構建了以任務為中心的隱式動作空間(task-centric latent action space),讓模型可以從海量無標簽視頻中學習任務相關且高效泛化的動作表示,只在人類視頻數據(Ego4D)上預訓練,就可以在LIBERO仿真平臺上達到SOTA級別效果。經過預訓練后同一模型可以同時完成操作與導航等任務,實現了通用的動作學習。



為什么是隱式動作?

因為它既“壓縮信息”,又“對齊知識”


傳統的通用模型如OpenVLA采用自回歸策略直接預測每一步動作,推理速度慢且魯棒性不強。UniVLA則另辟蹊徑,將動作預測劃分為三個階段:


1. 隱式動作學習:

從海量跨領域視頻中“默默學習”,通過逆動力學建模并使用VQ-VAE進行離散化,構建出對任務理解更強、更緊湊的隱式動作空間;

2. 通用策略預訓練:

借助Prismatic-7B等大模型架構,將視覺觀察與語言指令編碼為統一輸入,預測隱式動作序列,從而實現具身無關的通用策略;

3. 動作解碼與部署:

使用輕量化解碼器將隱式動作轉譯為真實機器人控制信號,作為下游的控制策略,從而能夠在多款機器人平臺上進行快速適配和部署,輕裝上陣、高效執行


圖片

UniVLA的前兩階段訓練策略


相比 OpenVLA 那種直接在動作空間里“硬解”的做法,UniVLA 的“隱式編碼”(Latent Encoding)策略有幾個顯著優勢:


1. 可以更好的利用視頻數據,泛化范圍大:

只需視頻和語言,就能從互聯網視頻數據中學技能,提取動作;

2. 壓縮維度,降低計算成本:

動作空間被有效壓縮,推理速度從<5Hz 提升至 10Hz+;

3. 適配靈活,遷移效率高:

由于隱式動作具有通用性,故只需輕量微調,就能部署到不同機器人上,下游數據效率拉滿。


數據算力所需更少,性能反而更強


相比OpenVLA,UniVLA在計算效率和適配能力上表現出壓倒性優勢:預訓練GPU時長僅為其1/20,卻在多個任務和平臺上實現性能的全面超越。


在LIBERO、CALVIN等多個操控基準測試中,UniVLA展現出優越的通用性與任務適應能力,在四項評估指標中成功率平均提升達18.5%。更值得注意的是,僅使用人類視頻預訓練(Ego4D),UniVLA也能在LIBERO-Goal中達到SOTA效果。同時只需要10%的數據就在LIBERO-Goal上達到了SOTA效果(62.4%),優于同樣數據量訓練下的OpenVLA(11.6%)和 OpenVLA-OFT(43.0%),數據利用效率如同開掛。


圖片

LIBERO 實驗結果


更重要的是,UniVLA以其結構化的隱式動作空間設計,天然具備擴展性與數據可擴展性:無論是引入更多人類示范作為提取隱空間表征的與訓練,還是增加新的機器人平臺僅通過輕量微調即可遷移適配,實現跨具身、跨視角、跨任務的全面通用。


在真實機器部署中,受益于僅12M參數的簡單動作解碼器以及高效的隱空間動作表征,UniVLA可以實現(閉環)10Hz以上的實時推理控制,在多個任務中(如“清理案板”、“疊漢諾塔”等)展現出高精度、高魯棒的操作能力,平均成功率達到80%+,推理時延遠低于OpenVLA,打通了通用大模型到落地應用的可能路徑。


圖片

UniVLA在真機實驗表現出色


同時在設計的若干泛化實驗中,面對各種泛化挑戰,它不僅不社恐,還能“快準穩”上手。通用的隱式動作空間+異構數據的預訓練,讓它不止是“聰明”,而且真“通用”。


圖片

UniVLA在不同泛化條件下的表現


多虧了UniVLA的‘隱式動作+通用訓練’,UniVLA能夠充分在大量異構數據(操作、導航甚至人類視頻)中進行學習,并能夠有效容納足夠多的知識,單全收,越學越強。


圖片

UniVLA的異構數據擴展能力


少樣本情況下UniVLA性能優勢盡顯,在LIBERO長程任務基準上僅用10%數據(不到50條demo,平均每個任務僅5條)擊敗了全量數據微調的OpenVLA。


圖片

UniVLA在少樣本情況下的表現


UniVLA的方法不僅代表了視覺語言動作模型(VLA)領域的一次突破,更為“通用機器人智能”提供了新的思考與貢獻:從像素重建走向語義解耦的隱式動作學習、從高耗能預訓練走向輕量高效的跨本體適配、從單一機器人數據閉環走向人類視頻與多本體數據的開放協同。


- END -


主站蜘蛛池模板: 99国产精品久久久久久久... | 午夜精品久久18免费观看 | 成人女人a级毛片免费软件 欧美性生交XXXXX久久久缅北 | 一级毛片免费高清 | 日韩在线视频网 | 久久久精品免费观看 | 91视频免费视频 | 亚洲三区二区一区 | 国产91手机超清在线 | 欧美网站免费 | 欧美日韩国产精品久久久久 | 亚洲精品AA片在线观看国产 | 国产综合在线播放 | 欧美一区二区三区久久综合 | 免费网站日本a级淫片免费看 | 精品久久久久久国产91 | 亚洲一区影视 | 天天天操天天天干 | 在线国产视频观看 | 美女自卫慰黄网站 | 亚洲无码久久久久久久 | 久久久无码精品亚洲日韩蜜桃 | 噜噜噜免费视频 | 在线观看一区二区视频 | www.激情网 | 91久久婷婷国产一区二区三区 | 99久久久国产精品免费无卡顿 | 亚洲欧美日韩中文字幕一区二区三区 | 国产r级福利在线观看 | 欧美a大片欧美片 | 日本免费高清色视频在线观看 | 亚洲高清人人爽夜夜爽AV毛片 | 一本岛高清乱码2020叶美 | 69xxx国产视频 | 男女互舔中出水抽插视频 | 欧美黑人巨大XXXXX视频 | 成人高潮片免费视 | 又色又爽1000部偷拍免费视频 | 岛国av资源网 | 日韩在线播放一区 | 欧美做受视频播放 |