5378 篇
13902 篇
477779 篇
16275 篇
11758 篇
3925 篇
6529 篇
1251 篇
75585 篇
37723 篇
12151 篇
1656 篇
2859 篇
3417 篇
641 篇
1240 篇
1973 篇
4912 篇
3870 篇
5462 篇
中金:从 OpenAI Sora 看视频生成模型技术进展
延续 DiTs 架构,Sora 实现高质量长视频生成。根据技术报告,Sora 延续 DiTs 架构,随训练计算量提升而展现出显著的生成能力提升(Scalable)。相较先前模型,我们认为其最为突出的创新之处在于:1)LDM 自编码器实 现时间维度压缩,使得长视频生成成为可能;2)直接对 LDM 中潜视频进行图块化处理并直接使用 Transformer 建模,解除输入格式限制的同时,能够创新性地实现任何像素和长宽比视频的生成;3)我们判断其训练数据集中可能包含带有物理信息的合成数据,从而使模型展现出对物理信息的初步理解能力;4)复用 DALL·E 3 的重标注技术,对视频数据生成高质量文字标注,借助 GPT 对提示词进行扩展,提升生成效果。