5347 篇
13897 篇
477387 篇
16218 篇
11751 篇
3898 篇
6510 篇
1243 篇
75477 篇
37463 篇
12122 篇
1645 篇
2846 篇
3402 篇
641 篇
1237 篇
1968 篇
4899 篇
3853 篇
5414 篇
计算机行业:更多应用场景出现,中国公司得到更大机会-AIGC系列之五,跨模态
“模态”是指数据的存在形式,比如文本、音频、图像、视频等文件格式。多模态是一种全 新的交互、生成模式,集合了图像、语音、文本等方式。我们认为,多模态/跨模态AI 大 模型将得到相比ChatGPT 等NLP 大模型更大的应用。
1、文生图:最先成熟的跨模态应用 ........................................ 5
1.1 DALL-E:初代爆款文生图应用,贡献了CLIP 工具..............................5
1.2 从DALL-E 到Stable Diffusion:4 倍分辨率,背后是Diffusion ...7
2、CV 大模型:transformer 取代CNN,参数已到百亿级别8
2.1 CV+大模型的难度为何相比NLP 更高....................................................9
2.2 学界尝试将transformer 应用于CV 大模型 .........................................9
2.3 百亿参数级别的CV 大模型有“涌现”能力了吗?CV 大模型会大幅
提升标注数据需求吗?.................................................................................. 11
3、跨模态:更多应用可能性,中国AI 公司参与热情暴增.. 13
3.1 Google: 视觉语言模型大模型PaLM-E ........................................... 13
3.2 微软和OPEN AI:下一代GPT 可能也是多模态 ............................... 15
3.3 视觉/跨模态大模型是国内AI 公司更擅长的 ....................................... 16
4、推荐标的: ....................................................................... 18