行业报告详情 - 行业报告数据库

行业分类

找到报告 1 篇当前为第 1 页共 1 页

计算机行业：GPT系列，具身化多模态PaLM－E

加工时间：2023-04-01 信息来源：EMIS

关键词：计算机行业；GPT系列；多模态
摘要：

PaLM-E 是由谷歌于3 月6 日提出的最新大语言模型，其特点在于引入具身化和多模态概念。具身化指的是在机器学习中涉及物理实体，对应PaLM-E 指导现实的机器人完成相应任务；多模态指的是PaLM-E 在模型输入中嵌入了文本、图像、具身数据等信息。PaLM-E 的核心思想在于，通过将多模态信息编码为与语言相似的形式，嵌入已有的PaLM 模型，实现多模态的联合训练。其中，规模最大的PaLM-E 参数达5620 亿，是目前最大的视觉语言模型。从训练结果看，PaLM-E 具有很强的泛化和迁移能力，不仅能完成机器人具身推理任务，还能完成常规的视觉语言任务和通用语言任务。

目录：

PaLM-E：具身化的多模态大语言模型 ......................................................................................................................... 3

现有模型：不能很好解决grounding 问题 ............................................................................................................. 4

将多模态输入LLM 的关键：设计编码器 ...................................................................................................................... 5

状态估计向量：描述物体状态 ............................................................................................................................... 5

ViTs：解决2D 图像编码 ....................................................................................................................................... 5

对象为中心的表示：将视觉输入分离成对象 ......................................................................................................... 5

OSRT：提供3D 场景表示 .................................................................................................................................... 5

实体引用：直接指定引用对象 ............................................................................................................................... 5

PaLM-E：模型设置+训练集选择+实验结果 ................................................................................................................. 6

模型构建：构建了从小到大多种尺寸的PaLM-E .................................................................................................. 6

训练数据集：多种数据的混合 ............................................................................................................................... 6

实验设置：多种环境下进行任务设计 .................................................................................................................... 7

实验结果：迁移特性良好，能够指导真实机器人完成任务 ................................................................................... 7

任务与运动规划 ............................................................................................................................................. 8

桌面环境操作................................................................................................................................................. 9

移动操作 ...................................................................................................................................................... 11

其他实验：通用视觉语言任务和通用语言任务.................................................................................................... 13

风险提示.............................................................................................................................................................. 14

行业分类

友情链接

联系我们

QQ咨询

电话咨询

微信公众号

感谢访问