4月27日,在2024中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态性视频大模型正式发布。它是继Sora发布之后,全球率先取得重大突破的视频大模型,它由清华大学与生数科技自主研发。首个国产视频大模型目前具备哪些能力?它是否能对标Sora?一起去看一看。
这就是由Vidu生成的高清视频,清华大学教授、生数科技首席科学家朱军进行了现场展示,他介绍,Vidu支持一键生成长达16秒、分辨率高达1080P的高清视频内容,不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。
清华大学教授 生数科技首席科学家 朱军:比如说我们看这个车开过去的时候,它会扬起灰尘,以及像有阳光不同时间段的话,它的光影的效果等等这些,实际上是做到比较逼真的。还有另外一个特点,就是它可以理解这种多镜头的运用的一些语言,还有包括像聚焦、追光等等这些效果,甚至包括一些虚幻的,你可以去想象的一些场景。
此外,Vidu还能理解中国元素并生成视频,例如熊猫、龙等。作为继Sora之后首个取得突破的视频模型,Vidu一经发布,立刻引发了社会的关注和讨论。
清华大学教授 生数科技首席科学家 朱军:因为Sora它本身没有公开自己的技术路线,它本身的技术完全是保密的。我们自己在做路线的时候,实际上它也不是说我们就一看到 Sora才去做的,我们因为一直在做,我们叫生成式人工智能或者叫扩散模型,这些核心的技术,是我们自己独立做出来的。
德国工程院院士 中国工程院外籍院士 德国汉堡大学多模态智能系统技术研究所所长 张建伟:在这么短的时间里头就能够打造出这么明亮的产品,做出了可以说跟国际上平行的一些结果,是非常令人鼓舞的。更受人鼓舞的是自己研发的算法。
朱军告诉记者,今年1月,Vidu团队已实现4秒视频的生成,在Sora发布之前,业内大多专注的是已有视频质量如何再提升,Sora的发布极大地刺激了朱军和他的团队。经过团队的努力,3月底,Vidu一键生成视频突破到了8秒。在此次中关村论坛上,Vidu对外展示的是16秒的阶段性成果,虽然与Sora对外发布的可一键生成1分钟视频,时长有差距,但朱军告诉记者,过去两个月,他们的技术路线已经走通,Vidu正以更快的速度迭代。
Vidu的发布,也再一次引发了人们对人工智能更深层次的讨论。在这些讨论中,大家对人工智能有期待有担忧,也有美好的愿景。
清华大学教授 生数科技首席科学家 朱军:AI现在还没有完全说我一键生成大片,(要实现)还挺远。当满足一定条件的时候,我们肯定是第一时间会开放给大家用。在这个过程,比如它的可控、安全、可解释等等这些方面,我们国家其实也是叫发展与治理并重,我们其实是两手在抓。