亚搏体育 0.9B跑出90%真机告捷率！上海交大为VLA补上空间感

发布日期：2026-05-26 21:35 来源：未知作者：admin 浏览次数：

机器东说念主看得见，但不一定看得准。

大批 VLA 模子仍然主要依赖二维视觉，一朝遭受精定位、细摆放、消散判断这类需要空间感知的任务，告捷率就会彰着下滑。

补空间信息的路有两条，但都有代价。

显式 3D 门道靠深度传感器和点云重建，硬件链路长、对标定谬误明锐；隐式 3D 门道从 RGB 学几何，省了硬件，但不少决策依赖较重的基础模子，教悔和推理本钱偏高。

面前，上海交大 MINT 团队提议了一条中间门道 :

金沙JinSha(中国)娱乐网入口

Evo-Depth，约0.9B参数，不出奇增多硬件职守，用紧凑的隐式深度编码把空间感写进 VLA 计策里，仿真与真机同期兼顾性能与部署成果。

仿真端，Meta-World 84.4%、LIBERO 95.4%；真机平均告捷率约 90%；部署侧约 3.2 GB 显存、约 12.3 Hz 推理频率。

代码、权重、教悔剧本已全面开源。

轻量、可端到端教悔

直入主题，Evo-Depth 的中枢想路是 :

从多视角 RGB 提真金不怕火紧凑的隐式深度表征，再以轻量形式融入视觉 - 言语通路，临了通过 flow-matching 动作巨匠输出相接动作。

总共这个词系统主要由三部分构成 :

1、IDEM：Implicit Depth Encoding Module。

IDEM 厚爱从多视角图像中提真金不怕火隐式深度特征，强调空间布局与相对几何探究，亚搏(中国)一站式服务官方网站而不是显式生成高本钱的 3D 中间默示。

论文中，IDEM 主干约 0.13B 参数，并消失多视角深度预教悔运滚动，在轻量条款下引入与深度探究的归纳偏置。

2、SEM：Spatial Enhancement Module。

SEM 将隐式深度动作一种调制信号，用于增强视觉 - 言语表征。

比拟告成增多孤独深度分支，这种交融形式更克制 :

原有 VLM 连续厚爱语义会通

深度特征主要厚爱空间增强

同期尽量搁置延长与显存支出

3、Progressive Alignment Training。

多模块连结教悔时常容易出现优化不牢固的问题。

为此，作家接管 Progressive Alignment Training，通过分阶段教悔形式迟缓完成：深度表征对皆 - 多模态交融 - 动作学习。

动作头则接管了现时 VLA 中较常见的 flow-matching 门道。

在约 0.9B 总参数建立下，论文敷陈的收尾如下。

仿真：Meta-World 84.4%、VLA-Arena 41.1%、LIBERO 95.4%、LIBERO-Plus 69.6%。

真机：平均告捷率约 90%。

部署：约 3.2 GB GPU 显存、约 12.3 Hz 推理频率。

值得注看法是，比拟只柔和 benchmark 分数，论文也给出了部署侧支出与及时性策画。

关于需要果然运行在机器东说念主搁置回路中的 VLA 来说，这部分信息时时相通枢纽。

性能 - 本钱 - 及时性的折中

归根结底，Evo-Depth 贬责的问题其实即是一句话：

如安在不显耀增多系统职守的情况下，升迁 VLA 的空间才气。

收尾是——比拟纯二维 VLA，它补充了空间信息；比拟更重的 3D 门道，它又尽量保留了部署成果。

关于正在作念机器东说念主操作、空间智能或 VLA 系统的团队来说，这类性能 - 本钱 - 及时性之间的折中决策，可能会越来越枢纽。

官方仓库：https://github.com/MINT-SJTU/Evo-Depth

模子权重：https://huggingface.co/MINT-SJTU/EVO-Depth-LIBERO

一键三连「点赞」「转发」「防备心」

宽饶在挑剔区留住你的想法！

— 完 —

咱们正在招聘别称眼疾手快、柔和 AI 的学术裁剪实习生 � �

感兴味的小伙伴宽饶柔和 � � 了解细则

� � 点亮星标 � �

科技前沿发达逐日见亚搏体育

上一篇：上一篇：亚搏(中国)一站式服务官方网站天龙八部: 重楼天山3300块钱为啥没卖掉? 重楼号价钱还是终点亲民

下一篇：下一篇：亚搏(中国)一站式服务官方网站最旺盛的中医, 皆是这么作念到少药治大病, 疗效好!

亚搏体育中国一站式服务官网

亚搏新闻

亚搏体育 0.9B跑出90%真机告捷率！上海交大为VLA补上空间感