2642 篇
1093 篇
194889 篇
3351 篇
6319 篇
2240 篇
2800 篇
538 篇
29729 篇
9917 篇
3171 篇
767 篇
2308 篇
1326 篇
451 篇
752 篇
1390 篇
2629 篇
2744 篇
4064 篇
中金:从 OpenAI Sora 看视频生成模型技术进展
延续 DiTs 架构,Sora 实现高质量长视频生成。根据技术报告,Sora 延续 DiTs 架构,随训练计算量提升而展现出显著的生成能力提升(Scalable)。相较先前模型,我们认为其最为突出的创新之处在于:1)LDM 自编码器实 现时间维度压缩,使得长视频生成成为可能;2)直接对 LDM 中潜视频进行图块化处理并直接使用 Transformer 建模,解除输入格式限制的同时,能够创新性地实现任何像素和长宽比视频的生成;3)我们判断其训练数据集中可能包含带有物理信息的合成数据,从而使模型展现出对物理信息的初步理解能力;4)复用 DALL·E 3 的重标注技术,对视频数据生成高质量文字标注,借助 GPT 对提示词进行扩展,提升生成效果。