作者:Howie Su(产业分析师)
技术前瞻但存在不少问题
OpenAI Sora 的发布引起科学家、艺术家和政治家的狂热与恐慌,Sora 产生的影片品质确实令人印象深刻,尤其是与去年人工智慧生成的影片相比,该模型仍处於实验阶段,很少有人明了其背後运作的原理,但从 OpenAI 迄今为止分享的范例来看,很明显,尽管留下令人印象深刻的结果,但文字转影片仍然存在一些基本缺陷,需要在投入生产之前修复问题。
不过,OpenAI 没有发布太多有关 Sora 背後模型的资讯,除了知道它使用扩散和变压器架构之外,由於 OpenAI 庞大的运算和资料资源,该模型已经过大规模训练,随附的「技术报告」也没有讨论实作细节,但包含一些有关其使用的模型和技术类型的提示,Sora 的大部分研究成果都建立在 Google、Facebook 和大学实验室的基础上,纽约大学研究指出,OpenAI 显然已经利用其庞大的运算和资料资源将一个简单的架构扩展至一定程度,从而带来了「新兴的模拟功能」。
在实际测试上,一方面,Sora可以产生单一场景和物体的大量细节,但另一方面,它也违反物理学和因果关系的基本规则,例如,物件可能会突然出现,或者模型可能会在整个影片中弄错物件的比例,它在模拟肢体方面尤其糟糕,脚和手可能会向错误的方向弯曲,或是当模拟的角色行走时,从摄影机的角度来看,他们的腿相互交叉时可能会混合在一起,角色的步态在中途就被打乱,OpenAI承认,该模型「可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。」
模型维运与修改成本高昂
对於Sora当前问题的解决方案,有不同的看法,一个明显的方法是继续扩展模型。该论文表明,研究人员能够透过更多参数、数据和计算来改进结果。这种模式在基於 Transformer 的模型中经常出现,随着变压器的规模和训练资料不断增加,扩展成本持续攀升,高昂的成本只有像 OpenAI 这样的公司才能使用,这些公司拥有强大的财务和计算资源,并且拥有有利可图的商业模式,使他们能够在此类实验中投入大量资金。
另一种解决方案是重新设计生成模型或将其与其他系统结合以获得更准确的结果,例如,像 Sora 这样的模型可以将其输出传递给另一个生成模型,例如神经辐射场 (NeRF),以建立其生成的影片的 3D 地图,然後可以使用实体模拟器(例如虚幻引擎)对这些物件及其运动进行细化,该模拟器已经提供准确的结果,最後,其他生成模型(例如 StyleGAN)可以改变最终输出的光线、风格和其他方面,也能添加许多其他小位元来进一步修改特定物件或背景。
当然,对使用者来说,这些复杂的技术怎麽操作可能不那麽重要,大家还是看他能多快应用在我们日常生活当中,但不可否认的是,这些大型语言模型公司已经开始成为AI军火商,未来对於产业变迁改变将带来重大影响。