与知识库对话 - 基于世界模型的具身智能技术原理是什么

回答

基于世界模型的具身智能技术原理主要包括以下方面：

谷歌发布的世界模型 Genie：
- 能够学习一致的动作空间，可能适合训练机器人，打造通用化的具身智能。
- 其架构中的多个组件基于 Vision Transformer(ViT)构建而成，为平衡模型容量与计算约束，在所有模型组件中采用内存高效的 ST-transformer 架构。
- Genie 包含三个关键组件：潜在动作模型（Latent Action Model，LAM）用于推理每对帧之间的潜在动作；视频分词器（Tokenizer）用于将原始视频帧转换为离散 token；动态模型给定潜在动作和过去帧的 token，用来预测视频的下一帧。潜在动作模型以完全无监督的方式学习潜在动作。
- 相关论文《Genie:Generative Interactive Environments》已公布，论文地址为 https://arxiv.org/pdf/2402.15391.pdf，项目主页为 https://sites.google.com/view/genie-2024/home?pli=1 ，论文的共同一作多达 6 人，包括华人学者石宇歌。
具身智能算法层：
- 机器人创业公司 Covariant 推出的首个机器人基础模型 RFM-1 是基于真实任务数据训练的机器人大模型，共有 80 亿参数，是基于文本、图片、视频、机器人动作、传感器信息等多模态数据进行训练的 any to any 序列模型。
- RFM-1 将机器人的实际动作也视作 Token，其 token 包括多种模态，每个模块都有专门的 tokenizer 进行处理。操作只有一个——预测下一个 token。
- RFM-1 对物理世界的理解源自于其学习生成视频的过程，通过接受初始图像和机器人动作的输入，预测接下来视频帧的变化，掌握了模拟世界每个瞬间变化的低层次世界模型。
行业进展：
- 李飞飞在 AI 3D 生成领域的工作极大地加速了进展，通过对 3D 物体的生成所构建出的世界，再进行降维的视频生成，生成的视频自然符合物理世界的规律，生成的世界也可交互。
- 世界模型开启了在虚拟世界中预训练机器人的可能，这个虚拟世界完全符合物理规律，可以快速生成无限场景，支持并行训练多个任务，大幅降低试错成本，加速机器人的学习过程，为实现更复杂的机器人行为打开可能。这种进步正在催生新的应用可能，如更自然的人机交互界面、更安全的机器人控制系统、更高效的虚拟训练平台等。世界模型也在改变 AI 理解和交互世界的基本方式。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

这表明Genie能够学习一致的动作空间，这可能适合训练机器人，打造通用化的具身智能。技术揭秘：论文《Genie:Generative Interactive Environments》已公布谷歌DeepMind已经放出了Genie论文。论文地址：https://arxiv.org/pdf/2402.15391.pdf项目主页：https://sites.google.com/view/genie-2024/home?pli=1论文的共同一作多达6人，其中包括华人学者石宇歌（Yuge(Jimmy)Shi）。她目前是谷歌DeepMind研究科学家，2023年获得牛津大学机器学习博士学位。方法介绍Genie架构中的多个组件基于Vision Transformer(ViT)构建而成。值得注意的是，由于Transformer的二次内存成本给视频领域带来了挑战，视频最多可以包含?(10^4)个token。因此，谷歌在所有模型组件中采用内存高效的ST-transformer架构（见图4），以此平衡模型容量与计算约束。Genie包含三个关键组件（如下图所示）：1.潜在动作模型（Latent Action Model，LAM），用于推理每对帧之间的潜在动作?；2.视频分词器（Tokenizer），用于将原始视频帧转换为离散token?；3.动态模型，给定潜在动作和过去帧的token，用来预测视频的下一帧。具体而言：潜在动作模型：为了实现可控的视频生成，谷歌将前一帧所采取的动作作为未来帧预测的条件。然而，此类动作标签在互联网的视频中可用的很少，并且获取动作注释的成本会很高。相反，谷歌以完全无监督的方式学习潜在动作（见图5）。

具身智能赛道爆发的前夕，我们应该了解些什么？（上）｜Z研究第 5 期

背景：2024.3，机器人创业公司Covariant推出了首个机器人基础模型RFM-1，这是世界上首个基于真实任务数据训练的机器人大模型，也是最接近于解决真实世界任务的机器人大模型。共有80亿参数，是基于文本、图片、视频、机器人动作、传感器信息等多模态数据进行训练的any to any序列模型Covariant：一家人工智能机器人公司，致力于构建一个通用的人工智能，使机器人能够在现实世界中学习和操作，以协助人类完成繁重和劳累的任务，尤其是在仓储和物流行业中。Covariant现阶段的目标通过AI让分拣机器人更好的识别、抓取并放置任何物品，目前产品主要的落地领域为仓储物流、快递分拣自动化。在欧美多个国家落地部署，且稳定持续运行。技术路线：端到端模型（罕见）技术：Any to any：RFM-1将机器人的实际动作也视作Token，其token包括文本、机器人的动作、传感器数据、图片、视频等多种模态，每个模块都有专门的tokenizer进行处理。而RFM-1的操作只有一个——预测下一个token，至于预测的是动作/图像/视频只是取决于token的表征罢了。世界模型：RFM-1对物理世界的理解源自于其学习生成视频的过程：它通过接受初始图像和机器人动作的输入，预测接下来视频帧的变化。这种基于动作条件的视频预测任务使得RFM-1掌握了模拟世界每个瞬间变化的低层次世界模型。该模型不仅能够理解预定的机器人动作，还能通过预测下一个token来推断这些动作是否能够成功执行，以及物料箱内容的变化情况。

码观 | 共识与非共识：从模型到应用，2024 AI 趋势回首与展望

李飞飞如何做到这一点，目前仍然不能完全确定，但可以确定的是，行业在2024年一年，在AI 3D生成领域，有了很大的进展。高斯喷射、One-2-3-45等工作，极大地加速了AI 3D生成的进展。而通过对3D物体的生成，所构建出的世界，再进行降维的视频生成，生成的视频，自然符合物理世界的规律，生成的世界也可交互。这些进展对具身智能领域具有革命性意义。和任何AI训练一样，具身智能——也就是机器人的智能，想要变得更聪明，也需要大量数据。传统上，训练机器人需要在现实世界收集大量数据，这个过程极其昂贵且效率低下。这些数据要采集自现实世界，比如使用动作捕捉设备遥操作驱动机器人进行操作，常规的操作是配备一到两人，一个机器人，一套动捕装备和一个计算机，还需要大量的时间投入。而世界模型开启了一个新的可能：在虚拟世界中预训练机器人。这个虚拟世界完全符合物理规律，可以快速生成无限场景，支持并行训练多个任务。这将大幅降低试错成本。这不仅加速了机器人的学习过程，也为实现更复杂的机器人行为打开了可能。我们或许会在接下来几年看到，具身智能突然出现像过去语言模型、视觉模型得到大量数据后出现的跨越式发展。这种进步正在催生新的应用可能：更自然的人机交互界面、更安全的机器人控制系统、更高效的虚拟训练平台。在制造业、虚拟现实、机器人技术等领域，世界模型都可能带来革命性的变革。世界模型也在改变AI理解和交互世界的基本方式，从表面特征的识别提升到深层物理规律的理解，从静态的判断发展到动态的预测，从单一模态扩展到多维度感知。模型开始真正理解和模拟这个世界的运行规律，这或许是通向真正“人形机器人”的关键一步。

基于世界模型的具身智能 技术原理是什么

回答

参考资料

基于世界模型的具身智能技术原理是什么