欢迎访问行业研究报告数据库

行业分类

当前位置:首页 > 报告详细信息

找到报告 1 篇 当前为第 1 页 共 1

中金:从 OpenAI Sora 看视频生成模型技术进展

加工时间:2024-03-05 信息来源:EMIS 索取原文[16 页]
关键词:OpenAI Sora;视频生成模型;Sora
摘 要:

延续 DiTs 架构,Sora 实现高质量长视频生成。根据技术报告,Sora 延续 DiTs 架构,随训练计算量提升而展现出显著的生成能力提升(Scalable)。相较先前模型,我们认为其最为突出的创新之处在于:1)LDM 自编码器实 现时间维度压缩,使得长视频生成成为可能;2)直接对 LDM 中潜视频进行图块化处理并直接使用 Transformer 建模,解除输入格式限制的同时,能够创新性地实现任何像素和长宽比视频的生成;3)我们判断其训练数据集中可能包含带有物理信息的合成数据,从而使模型展现出对物理信息的初步理解能力;4)复用 DALL·E 3 的重标注技术,对视频数据生成高质量文字标注,借助 GPT 对提示词进行扩展,提升生成效果。



© 2016 武汉世讯达文化传播有限责任公司 版权所有
客服中心

QQ咨询


点击这里给我发消息 客服员


电话咨询


027-87841330


微信公众号




展开客服