这项由清华大学人工智能产业研究院的郑金亮、李建雄等研究人员联合上海人工智能实验室、北京大学共同完成的突破性研究,于2025年10月发表在arXiv预印本平台上,论文编号为arXiv:2510.10274v1。感兴趣的读者可以通过该编号查询完整论文内容。

在机器人世界里,有一个困扰科学家们很久的问题:就像人类需要学会使用不同的工具一样,每种机器人都有自己独特的"个性"和"习惯"。有的机器人擅长精细操作,有的适合搬运重物,有的专门用于清洁,还有的负责驾驶。更复杂的是,即使是相同功能的机器人,因为制造商不同、摄像头位置不同、控制方式不同,它们之间也无法互相"交流"或共享经验。

这就好比你精心培训了一个厨师,但这个厨师只会在你家的厨房里做菜。一旦换到别人家的厨房,哪怕只是炉灶的位置稍有不同,这个厨师就完全不知所措了。在机器人领域,这种现象被称为"异质性问题",它严重阻碍了机器人技术的发展。

现在,清华大学的研究团队提出了一个令人兴奋的解决方案:X-VLA模型。这个模型的神奇之处在于,它能够像一个经验丰富的万能师傅一样,无论面对什么样的机器人平台,都能快速适应并发挥出色的表现。更令人惊讶的是,这个模型只有0.9B参数(相当于9亿个可调节的"开关"),却在6个仿真环境和3个真实机器人平台上都创造了最佳性能记录。

一、软提示技术:给每台机器人一张专属的"身份证"

传统的机器人训练方法就像是强迫所有不同性格的人都按照同一套行为准则生活。结果自然是一团糟——有些人适应得还不错,有些人则完全无法发挥自己的特长。清华团队意识到,与其强迫所有机器人都变得一样,不如让AI模型学会识别和适应每种机器人的独特性。

他们的解决方案是"软提示"技术。可以把这个技术想象成给每台机器人制作一张详细的身份证。这张身份证不是简单地写着"姓名:扫地机器人",而是包含了这台机器人的所有重要特征:它的摄像头安装在什么位置,它的机械臂可以做哪些动作,它通常在什么环境下工作,甚至它的"脾气"如何。

更妙的是,这些"身份证"不是工程师预先写好的,而是AI模型在学习过程中自动生成的。就像一个经验丰富的管理者,在与不同员工合作的过程中,逐渐摸清每个人的工作习惯和特点,并据此调整管理方式。

在实际运作中,当X-VLA模型遇到一台新的机器人时,它首先会查看这台机器人的"身份证"。然后,模型的主体部分(相当于核心的决策大脑)会根据这些特征信息,微调自己的行为模式。这样,同一个AI大脑就能够同时服务于完全不同的机器人,而每台机器人都能得到最适合自己的指令。

研究团队在多种不同的方法中进行了对比实验。他们尝试了传统的为每种机器人设计专门输出接口的方法,也试验了让AI模型直接从文字描述中理解机器人特征的方法。结果发现,软提示技术不仅效果最好,训练过程也最稳定。这就好比在教学中发现,给每个学生制作个性化学习卡片的效果,远远超过了一刀切的统一教学方法。

二、架构创新:像搭积木一样组装AI大脑

X-VLA模型的整体架构可以比作一个设计精良的多功能工作台。这个工作台需要同时处理三种完全不同类型的信息:高分辨率的视觉信息(相当于看到的画面)、自然语言指令(相当于听到的命令),以及机器人当前的状态信息(相当于身体的感知)。

传统的方法通常是把所有信息都塞给同一个处理器,就像让一个人同时用眼睛看电影、用耳朵听音乐、用手做数学题。结果往往是什么都做不好。清华团队采用了一种更聪明的分流处理策略。

对于高维度的视觉信息,他们使用了预训练的视觉-语言模型作为主要处理器。这个处理器专门负责理解图像内容和语言指令之间的关系,就像一个专门的翻译员,能够准确理解"把红色杯子放到桌子上"这样的复合指令。与此同时,对于那些辅助性的视觉信息(比如机器人手腕上的摄像头画面),他们使用了独立的视觉处理器,避免干扰主要的理解过程。

对于低维度的信息,比如机器人关节的当前角度、预期的动作序列等,研究团队将它们与时间信息结合起来,通过轻量级的线性层进行处理。这种设计的巧妙之处在于,它既保持了信息处理的专业性,又确保了不同类型信息之间能够有效融合。

整个架构的核心是标准的Transformer编码器堆叠。Transformer可以理解为一种特别善于处理序列信息和找出信息间关联的AI结构。通过简单地堆叠这些标准组件,X-VLA模型获得了出色的可扩展性。这意味着如果需要处理更复杂的任务或更大的数据集,只需要增加更多的Transformer层即可,就像搭积木一样简单直接。

三、训练策略:两阶段成长的智慧设计

X-VLA的训练过程可以比作培养一个优秀的实习管理者的过程,分为两个阶段:通用能力培养和专业适应。

第一阶段是预训练阶段,就像让实习生在不同部门轮岗,积累通用的管理经验。在这个阶段,研究团队收集了29万个机器人操作案例,这些案例来自7个不同的硬件平台,涵盖了从单臂机器人到双臂协作机器人的各种配置。更重要的是,这些数据的摄像头设置、控制频率、任务类型都大不相同,为模型提供了极其丰富的学习素材。

在预训练过程中,软提示技术发挥了关键作用。每当模型遇到来自不同平台的数据时,它会自动调用对应的"身份证",并根据这些特征调整自己的理解和决策过程。这样,模型逐渐学会了如何在保持核心决策能力的同时,灵活适应不同硬件平台的特殊要求。

第二阶段是领域适应阶段,类似于让管理者专门负责某个特定部门。当需要将X-VLA部署到一个全新的机器人平台上时,研究团队采用了一个巧妙的两步适应策略。

首先是"提示预热"步骤。此时,模型的主体参数保持冻结,只有新的软提示参数可以更新。这就像让一个有经验的管理者先花时间了解新部门的具体情况,而不急于改变自己的基本管理理念。通过这种方式,新的软提示能够有效编码新平台的特征,为下一步的联合训练打好基础。

接下来是"联合策略适应"步骤。在这个阶段,软提示和主体模型参数都会进行更新,但更新的学习率经过精心设计。对于软提示和视觉-语言模块,研究团队使用了较低的学习率,以避免破坏预训练阶段积累的宝贵知识。这种设计哲学反映了一个重要观察:预训练的视觉-语言模型已经具备了强大的通用理解能力,过度的修改可能适得其反。

四、数据处理的精妙艺术:让机器人说同一种"语言"

在机器人领域,不同平台之间的数据差异就像不同国家的语言差异一样复杂。清华团队在数据处理方面的创新,可以比作设计了一套机器人世界的"世界语"。

首先是动作表示的标准化。不同的机器人制造商往往使用不同的坐标系和控制方式。有些机器人习惯用关节角度来描述动作,有些则使用末端执行器的位置和姿态。研究团队选择了一种统一的表示方法:使用末端执行器的笛卡尔坐标位置、用Rotate6D表示法编码的绝对旋转角度,以及二进制的夹爪状态。

这种选择并非随意。笛卡尔坐标系是人类最直观理解空间位置的方式,而Rotate6D表示法能够避免传统欧拉角和四元数表示中的数学奇点问题。就像选择一种既准确又不容易产生歧义的语言来描述动作一样。

更有趣的是,研究团队发现原始的机器人动作轨迹往往包含太多细节,反而不利于学习。这就像教人开车时,如果过分强调每个细微的方向盘调整,反而会让学习者迷失在技术细节中,忘记了驾驶的基本原理。因此,他们采用了"意图抽象"的策略,通过时间下采样的方式,将详细的动作轨迹压缩为30个关键节点,概括4秒钟内的主要动作意图。