Sora视频生成模型亮相：技术惊艳但仍有挑战

来源：网络　浏览：60次　时间：2024-03-08

近日，OpenAI展示了其新型视频生成模型Sora，这一模型在文本转视频技术上取得了显著进步。然而，在彭博社进行的测试中，Sora的表现并不完美，出现了一些不符合现实场景的动作，如鹦鹉飞过猴子时翅膀扭曲，以及猴子身上出现鹦鹉尾巴等。

这些问题反映了Sora在理解和呈现物体物理特性方面的局限性。OpenAI科学家Bill Peebles也承认了这一点，他表示：“确实会在片段中找到一些奇怪的动作。”

Sora采用Diffusion transformer技术，将视频内容分解成一系列patch，并通过去噪技术预测出清晰的原始图像信息。虽然这种方法优化了视频生成效果，但Sora仍面临一系列挑战和局限性。

这些挑战包括物理交互的准确性、对象状态变化的一致性、长期样本的连贯性、物体的自发出现、手部和身体部位的处理、计算资源的需求、模型的泛化能力以及视频编辑和扩展的能力。在复杂场景中，Sora可能会出现不符合现实场景的动作，如篮球穿过篮筐侧面、狗在走路时相互穿过等。

尽管Sora在某些特定场景下表现出色，但OpenAI表示，该模型仍有很长的路要走，需要解决许多技术挑战。随着技术的不断进步，我们有理由相信Sora的未来会更加出色。