5379 篇
13902 篇
477807 篇
16280 篇
11761 篇
3926 篇
6532 篇
1251 篇
75590 篇
37740 篇
12156 篇
1656 篇
2859 篇
3418 篇
641 篇
1240 篇
1973 篇
4916 篇
3871 篇
5467 篇
计算机行业:GPT系列,具身化多模态PaLM-E
PaLM-E 是由谷歌于3 月6 日提出的最新大语言模型,其特点在于引入具身 化和多模态概念。具身化指的是在机器学习中涉及物理实体,对应PaLM-E 指导现实的机器人完成相应任务;多模态指的是PaLM-E 在模型输入中嵌入 了文本、图像、具身数据等信息。PaLM-E 的核心思想在于,通过将多模态 信息编码为与语言相似的形式,嵌入已有的PaLM 模型,实现多模态的联合 训练。其中,规模最大的PaLM-E 参数达5620 亿,是目前最大的视觉语言 模型。从训练结果看,PaLM-E 具有很强的泛化和迁移能力,不仅能完成机 器人具身推理任务,还能完成常规的视觉语言任务和通用语言任务。
PaLM-E:具身化的多模态大语言模型 ......................................................................................................................... 3
现有模型:不能很好解决grounding 问题 ............................................................................................................. 4
将多模态输入LLM 的关键:设计编码器 ...................................................................................................................... 5
状态估计向量:描述物体状态 ............................................................................................................................... 5
ViTs:解决2D 图像编码 ....................................................................................................................................... 5
对象为中心的表示:将视觉输入分离成对象 ......................................................................................................... 5
OSRT:提供3D 场景表示 .................................................................................................................................... 5
实体引用:直接指定引用对象 ............................................................................................................................... 5
PaLM-E:模型设置+训练集选择+实验结果 ................................................................................................................. 6
模型构建:构建了从小到大多种尺寸的PaLM-E .................................................................................................. 6
训练数据集:多种数据的混合 ............................................................................................................................... 6
实验设置:多种环境下进行任务设计 .................................................................................................................... 7
实验结果:迁移特性良好,能够指导真实机器人完成任务 ................................................................................... 7
任务与运动规划 ............................................................................................................................................. 8
桌面环境操作................................................................................................................................................. 9
移动操作 ...................................................................................................................................................... 11
其他实验:通用视觉语言任务和通用语言任务.................................................................................................... 13
风险提示.............................................................................................................................................................. 14