
最近,上海人工智能实验室(上海AI实验室)开放了生成世界模型的起源。该模型都是从合成数据中训练的。它不仅在传统的彩排活动和世代之前进行,而且还首次在现实世界中提供了3D空间决策和计划的巨大模型,这将有助于机器人完整的复杂活动,例如关注视觉计划,4D动态重建的目标,以及动作条件的猜测视频。研究团队深入包括建模的形成几何重建,并建议“重建预测计划”的组合框架。通过以太,大型模型可以看到周围的环境,并了解事物之间关系的位置,运动和原因,从而在行动中做出更明智的决定。实验表明,世界的传统模型通常集中于RGB图像的预测并忽略其背后的隐式几何信息。引入空间建模后,所有指标得到了显着改进,其中视频一致性的指标增加了几乎4%。更重要的是,即使仅将合成数据用于训练,该模型仍然通常在实际环境中显示出强大的零样本功能。纸张和模型同时是开放资源。纸张标题:以太:几何统一世界建模纸链接:https://arxiv.org/abs/2503.18945主页项目:https://aether-world.github.io,在动态环境中克服决策的智能困境的三种主要技术。传统世界模型主要用于自动驾驶和游戏开发等领域。有了丰富的动作标签,我们可以猜测下一个视觉图片。但是,由于实际三维空间中缺乏建模能力,因此很容易导致现象根据模型预测的结果,预测不符合物理定律。同时,由于希望和缺乏实际数据,当面对更复杂和可变的情况时,一般的能力通常是不足的。为了应对上述问题,研究团队根据三维空间建模提出了生成世界模型。通过引入和开发几何空间,它极大地提高了准确性和Pagkakapare -SAME作为空间推理的模型。具体而言,研究团队使用大量的RGBD数据来生成完整的数据清洁和动态变更过程,并标记了富有行动的行动。同时,他们提出了一种组合多模式数据的动态机制,这首先包括动态重建,视频预测和行动计划的三个活动,并在统一的框架中优化它们,从而实现多任务和G的真正集成协作改善模型的稳定性和稳定性。面对复杂而不断变化的现实世界,如何使体现的智能系统实现可靠,有效的决策是人工智能领域的主要挑战。通过该图中的三个基本技术突破,研究团队显着提高了动态环境中体现系统的感知,建模和决策能力。视觉计划的重点是目标:基于启动和目标情景,可以自动生成实现视觉目标的合理途径,并且通用频率形式呈现整个过程。通过关节修复重建和预言的目标,在实现知识之前具有空间几何形状的以太都是合理的。它允许智能智能系统像人们一样“看到道路计划” - 通过相机观察环境后,它们会汽车从事安全和物理的行动方案。 4D动态重建:通过自动标记管道,可以构建合成4D数据集,并且可以在没有现实世界数据的情况下实现零样品迁移,在时空环境中准确提取和重建动态变化。例如,如果您在Street View上输入视频,则系统可以重建一个三维场景模型,该模型包含时间维度,准确显示动态过程,例如行人步行和车辆移动以及建模精度可以达到毫米水平。自动相机实验室管道。条件状况的预测:创新的摄像头采用作为全球行动的表示,它可以根据视觉和潜在动作的初步观察来预测未来场景的趋势的变化。 Katumthis是安装“镜头”以预测体现智能系统中未来的基础。真实场景中的零样本概括有所不同从只能预测图像变化的传统世界模型。 Ether不仅完成了同时和空间的四个维空间的重建和预测,而且还支持了场景的减少以及由控制动作的控制所驱动的路径计划。值得强调的是,该方法可以实现现实世界的零样本将军,并显示出强大的跨域转移能力。特定过程如下图所示。在图中,黄色,蓝色和红色分别代表图像,动作和深度的潜在变量,灰色表示噪声的术语,而白色框则是一个零的区域。 PINTHE模型包括不同的条件输入(例如观察框,目标框架和动作轨迹),并结合了扩散过程以实现单个建模和许多活动的生成。就像集成一样 - 包括一个完整的动态难题。观察框e provides "what you are now", the target frame provides "what are you in the future", the trajectory of action is "how to get from here to there", and the process of dissemination is like a puzzle logic, integration -included scattered information in a smooth way, and eventually it will return to a melting time and will soon recover and recover and recover and reinstate a time -to -end, space process.为了支持完成三个不同任务的完成:重建,预测和计划同时,以太设计了一个统一的多任务框架,以首次在同一系统中进行合作的动态重建,视频预测和动作计划。这个基本在于:结合多模式信息(例如图像,手势,深度等)的能力。实验结果已经达到甚至超过现有的SOTA水平,并且在许多实验活动中都有动态重建场景。同时,发现在多任务框架下,每个任务都是Well被提升,特别是在以下操作的准确性方面。预计该方法将为体现的智能模型的研究提供技术支持,以基于路径的基于路径的研究和基于模型的研究为方向。