欢迎访问行业研究报告数据库

行业分类

当前位置:首页 > 报告详细信息

找到报告 1 篇 当前为第 1 页 共 1

计算机行业:GPT系列,具身化多模态PaLM-E

加工时间:2023-04-01 信息来源:EMIS 索取原文[14 页]
关键词:计算机行业;GPT系列;多模态
摘 要:

PaLM-E 是由谷歌于3 月6 日提出的最新大语言模型,其特点在于引入具身 化和多模态概念。具身化指的是在机器学习中涉及物理实体,对应PaLM-E 指导现实的机器人完成相应任务;多模态指的是PaLM-E 在模型输入中嵌入 了文本、图像、具身数据等信息。PaLM-E 的核心思想在于,通过将多模态 信息编码为与语言相似的形式,嵌入已有的PaLM 模型,实现多模态的联合 训练。其中,规模最大的PaLM-E 参数达5620 亿,是目前最大的视觉语言 模型。从训练结果看,PaLM-E 具有很强的泛化和迁移能力,不仅能完成机 器人具身推理任务,还能完成常规的视觉语言任务和通用语言任务。


目 录:

PaLM-E:具身化的多模态大语言模型 ......................................................................................................................... 3

现有模型:不能很好解决grounding 问题 ............................................................................................................. 4

将多模态输入LLM 的关键:设计编码器 ...................................................................................................................... 5

状态估计向量:描述物体状态 ............................................................................................................................... 5

ViTs:解决2D 图像编码 ....................................................................................................................................... 5

对象为中心的表示:将视觉输入分离成对象 ......................................................................................................... 5

OSRT:提供3D 场景表示 .................................................................................................................................... 5

实体引用:直接指定引用对象 ............................................................................................................................... 5

PaLM-E:模型设置+训练集选择+实验结果 ................................................................................................................. 6

模型构建:构建了从小到大多种尺寸的PaLM-E .................................................................................................. 6

训练数据集:多种数据的混合 ............................................................................................................................... 6

实验设置:多种环境下进行任务设计 .................................................................................................................... 7

实验结果:迁移特性良好,能够指导真实机器人完成任务 ................................................................................... 7

任务与运动规划 ............................................................................................................................................. 8

桌面环境操作................................................................................................................................................. 9

移动操作 ...................................................................................................................................................... 11

其他实验:通用视觉语言任务和通用语言任务.................................................................................................... 13

风险提示.............................................................................................................................................................. 14


© 2016 武汉世讯达文化传播有限责任公司 版权所有
客服中心

QQ咨询


点击这里给我发消息 客服员


电话咨询


027-87841330


微信公众号




展开客服