5411 篇
13918 篇
478362 篇
16355 篇
11779 篇
3949 篇
6564 篇
1255 篇
75762 篇
38242 篇
12197 篇
1674 篇
2874 篇
3423 篇
642 篇
1242 篇
1980 篇
4930 篇
3896 篇
5520 篇
中金:从 OpenAI Sora 看视频生成模型技术进展
延续 DiTs 架构,Sora 实现高质量长视频生成。根据技术报告,Sora 延续 DiTs 架构,随训练计算量提升而展现出显著的生成能力提升(Scalable)。相较先前模型,我们认为其最为突出的创新之处在于:1)LDM 自编码器实 现时间维度压缩,使得长视频生成成为可能;2)直接对 LDM 中潜视频进行图块化处理并直接使用 Transformer 建模,解除输入格式限制的同时,能够创新性地实现任何像素和长宽比视频的生成;3)我们判断其训练数据集中可能包含带有物理信息的合成数据,从而使模型展现出对物理信息的初步理解能力;4)复用 DALL·E 3 的重标注技术,对视频数据生成高质量文字标注,借助 GPT 对提示词进行扩展,提升生成效果。