模拟大脑功能的分化!北京大学和香港的中国推
作者: bet356亚洲版本体育 点击次数: 发布时间: 2025-07-13 12:01

快速执行和缓慢的思考:在机器人技术领域,达到高频响应以及复杂推理的统一一直是重要的技术挑战。最近,北京大学和香港大学共同启动了新的双重系统愿景和一种名为Fast-Inlow(FIS-VLA)的语言动作模型。先前和慢速的系统VLA方法需要初始化/引入新的快速执行模块。将快速执行模块合并到先前训练的视觉语言模型(VLM)中,以实现高速和缓慢系统的集成设计。同时,对双重系统设计了非均匀和异步频率策略的条目,使FIS-VLA能够实现快速的动作生成,并具有缓慢思考的能力。该方法在多个模拟和真实机器的平台中实现了出色的性能者。特别是,FIS-VLA-7B可以实现控制频率Ncies的最高为117.7Hz。这远远超出了现有的主要解决方案,并展示了其广泛的实际应用。论文中的链接:https://arxiv.org/pdf/2506.01953项目主页:https://astin-slow.github.io/code链接:https://github.com/chen-h01/fastin-h01/fastin-slowpku hmi hmi hmi hmi hmi hmi hmpage: https://pku-hmi-lab.github.io/hmi-web/index.htmlresearch搜索背景和挑战:机器人操作系统的目的是基于复杂环境中的传感器输入和语言指令生成精确有效的控制符号。大型视觉语言(VLM)的模型近年来由于其强大的训练能力而引入了机器人技术领域,但其巨大的模型参数及其最慢的推理速度限制了Cohigh频率NTROL任务的实用性。为此,一些研究介绍了卡尼曼的“双重系统理论”。系统1代表一个快速而直观的决策 - 制定系统,而S系统2代表一个缓慢而深的推理系统。受这个理论的启发,有现有的方法可以尝试构建双重系统结构。也就是说,我们将VLM用作系统2在任务级别理解,并使用其他策略标头(系统1)来预测操作。但是,现有设计中的两个系统相对独立,无法完全共享系统系统2的先前知识,从而导致调整效率低下。系统1缺乏完全使用系统的语义推理结果第二慢速速度(如何区分慢速系统中的执行模块)FIS-VLA提出了创新的结构,Rec.Directionaldirectiondrest nstrurfor nstrurfor nstruring vlm transferter模块并直接在系统执行模块中直接在系统执行模块中进行重新构建。系统1经常响应真实的 - 时间感知输入(状态,图像,点云),并提供有效的属行动。此外,FIS-VLA使用的是识别协作培训策略的双重系统。一方面,它使用传播建模来提高系统1的系统生成能力,同时保留系统2的高数字语义推理能力,从而确保执行一般推断的互补性。该模型可预见到大量机器人数据中,具有超过860,000个轨迹,对多个实际任务进行了调整和优化,可显着提高任务和完成频率的完成率。 1。架构设计:FIS-VLA基于Prism VLM架构,主要包括以下模块:视觉编码器(两个视觉编码器的组合,Siglip和Dinov2的组合),Light 3D Tokensor Modal)。系统1可以直接嵌入系统2的高维表示空间,在训练之前继承知识并实现高频执行。整个系统形成一个“快速,缓慢,SLO”w, fast" joint structure. 2. Collaboration of the Dual System: The FIS-VLA structure consists of two components. Slow system 2 and high speed system 1. This design is inspired by the theory of dual systems proposed by Nenemann. In FIS-VLA, system 2 processes visual observations related to TArea (for example, images) and language instructions, transforming them into high -dimension characteristics that arise from the middle layer of a large -scale language模型(LLM)根据“动作障碍”的方法,FIS-VLA承认,时间t可以在几个未来的步骤中产生动作的指导,因此FIS-VLA可以使系统层的中间输出成为潜在的条件信号,从而为下一个H-System refers Inde Referes to Resement for System refers to Syste Reaster to to Result for System to to Result to System to to to Restion 2。系统1高频动作发电n模块。为了协调两个系统,FIS-VLA研究了它们之间的操作频率之间的关系,在消融实验中测试了不同的动作预测场,并研究了必须连续执行每个动作的系统1的步骤数。在训练阶段,FIS-VLA使用异步采样来控制系统2的操作频率,这允许系统1在动作生成过程中保持时间的一致性。此外,FIS-VLA使用非均匀的模态输入设计。系统1的责任与FIS-VLA的责任有根本的差异,该FIS-VLA设计了异质入口模式。系统2主要假定对语义任务和推理的理解。使用先前训练的图形大规模和文本数据,更合适地接收2D语言和图像说明,以完全刺激语义建模功能作为Internet上先前训练的模型。自系统以来1用于生成真实的机器人动作,您必须收到低潜伏期的全面信息,例如当前时刻的2D图像,机器人技术的独特状态(关节,位置等)以及通过室内参数从深度图中恢复的3D点的云信息。特别是,3D信息对于确定空间关系并实施更精细的操作很重要。最后,System 1使用这些输入模式与高维函数输出合并,以生成动作作为条件输入。 3。双重系统协作的FIS-VLA收缩:系统1采用传播建模,例如核和注射噪声耦合动作,例如训练变量,以实现连续作用的产生。 System 2使用自源预测来保留推理能力,这两个培训目标共同优化了FIS-VLA。该培训使用大型多平台轨迹数据(Aslim依靠860k轨迹)并引入Subtasten语言指令,以在精细的调整阶段提高任务的适应性。精度,速度,概括! 1。仿真测试:RLBENCH仿真任务中的平均FIS-VLA成功率为69%,明显好于CoGACT(61%)和π0(55%),其中10个任务中的八个首先分类。从控制频率的角度来看,如果动作块的大小为1,则达到21.9hz。这比Cogact两倍多。 2。皇家机械测试:在实际机器人平台(Agilex和Alphabot)上,八个任务的FIS-VLA平均成功率为68%和74%,远高于基线π0。在“水水”,“黑板”和“折叠毛巾”等场景中,它显示出巨大的好处。 3。概括能力:在概括测试中,FIS-VLA的准确性降低了π0以下,针对非对象,复杂的资金和iLumimination的变化FIS-VLA的准确性低于π0,验证了体系结构的鲁棒性视觉干扰的双重系统。 4。消融实验:消融实验表明,共享变压器的层没有共享。该系统将更好地工作。系统1接收三种输入模式:机器人,图像和点云的状态。系统1与系统1 1:4合作。FIS-VLA在几个动作片段值中具有稳定的性能,但控制频率成比例地增加。特别是,如果一步中预测了八个动作,则理论控制的频率与117.7Hz相同。同时,作者还研究了一系列变化(模型入口处的变化)中的FIS-VLA。 5。真实机器实验的视觉摘要和观点:FIS-VLA通过嵌入执行执行模块以及创新的推断和控制,实现了高频,高精度和强大的控制功能以及强大的控制功能。作者认为,对共享Struc的动态调整在未来引入的情况下,Tures和合作策略将进一步改善现实世界任务中的适应性和鲁棒性。