行业报告详情 - 行业报告数据库

行业分类

找到报告 1 篇当前为第 1 页共 1 页

中金：从 OpenAI Sora 看视频生成模型技术进展

加工时间：2024-03-05 信息来源：EMIS

关键词：OpenAI Sora；视频生成模型；Sora
摘要：

延续 DiTs 架构，Sora 实现高质量长视频生成。根据技术报告，Sora 延续 DiTs 架构，随训练计算量提升而展现出显著的生成能力提升（Scalable）。相较先前模型，我们认为其最为突出的创新之处在于：1）LDM 自编码器实现时间维度压缩，使得长视频生成成为可能；2）直接对 LDM 中潜视频进行图块化处理并直接使用 Transformer 建模，解除输入格式限制的同时，能够创新性地实现任何像素和长宽比视频的生成；3）我们判断其训练数据集中可能包含带有物理信息的合成数据，从而使模型展现出对物理信息的初步理解能力；4）复用 DALL·E 3 的重标注技术，对视频数据生成高质量文字标注，借助 GPT 对提示词进行扩展，提升生成效果。

行业分类

友情链接

联系我们

QQ咨询

电话咨询

微信公众号

感谢访问