openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]
2024-04-28 02:03:12 小编:游戏鸟手游网
图注:Sora可以为各种设备生成与其原始纵横比完美匹配的内容
改进构图与框架
我们的实验结果显示,在视频的原始纵横比上进行训练,能够显著提升构图和框架的质量。为了验证这一点,我们将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现,在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧,充分展现了其在视频生成领域的卓越性能。
图注:将所有训练视频裁剪为方形的模型相比(左),Sora能呈现出更加完美的帧
语言理解深化
为了训练文本转视频生成系统,需要大量带有相应文本字幕的视频。为此,我们借鉴了DALL·E3中的re-captioning技术,并应用于视频领域。首先,我们训练了一个高度描述性的转译员模型,然后使用它为我们训练集中的所有视频生成文本转译。通过这种方式,我们发现对高度描述性的视频转译进行训练,可以显著提高文本保真度和视频的整体质量。
与此同时,与DALL·E3类似,我们还利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。这一创新使得Sora能够精确地按照用户提示生成高质量的视频。
图片与视频提示
在上述所有结果和我们的演示中,你可能已经注意到了文本转视频的示例。但Sora的功能远不止于此,它还能接受其他类型的输入提示,如预先存在的图像或视频。这种多样化的提示方式使Sora能够执行广泛的图像和视频编辑任务,如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。
将DALL·E图片变成动画
值得一提的是,Sora还能在提供图像和提示作为输入的情况下生成视频。下面展示的示例视频就是基于DALL·E 2和DALL·E 3的图像生成的。这些示例不仅证明了Sora的强大功能,还展示了它在图像和视频编辑领域的无限潜力。