简体中文 繁體中文 English 日本語 Deutsch 한국 사람 بالعربية TÜRKÇE português คนไทย

分享

生成式视频竞赛升温

C1.png
周一,以视频游戏帝国和聊天应用微信闻名的互联网巨头腾讯推出了其开源视频生成模型DynamiCrafter的新版本。这提醒我们,一些最大的科技公司一直在悄悄地加大力度,在文字和图像到视频领域有所作为。
与市场上的其他生成视频工具一样,DynamiCrafter 使用扩散方法将字幕和静止图像转换为几秒钟长的视频。受物理学中扩散自然现象的启发,机器学习中的扩散模型可以将简单的数据转换为更复杂和更真实的数据,类似于粒子从一个高浓度区域移动到另一个低浓度区域。


第二代 DynamiCrafter 正在以 640 x 1024 的像素分辨率制作视频,这是 10 月份首次发布的 320 x 512 视频的升级。DynamiCrafter背后的团队发表的一篇学术论文指出,其技术与竞争对手的技术不同,因为它将图像动画技术的适用性扩大到“更通用的视觉内容”。
“关键思想是通过将图像纳入生成过程作为指导,利用文本到视频扩散模型的运动先验,”该论文说。相比之下,“传统”技术“主要侧重于使用随机动态(例如云和流体)或特定领域运动(例如人发或身体运动)来制作自然场景的动画。



在比较了 DynamiCrafter、Stable Video Diffusion(十一月推出)和最近大肆宣传的pika labs 的演示(见下文)中,腾讯模型的结果似乎比其他模型稍微生动一些。不可避免地,所选的样本会偏爱 DynamiCrafter,在我最初的几次尝试之后,没有一个模型给人留下 AI 很快就会能够制作成熟电影的印象。
尽管如此,随着生成文本和图像的繁荣,生成视频被寄予厚望,成为人工智能竞赛的下一个焦点。因此,预计初创公司和现有科技公司正在向该领域投入资源。这在中国也不例外。除腾讯外,TikTok的母公司字节跳动、百度和阿里巴巴也纷纷发布了视频传播模型。
字节跳动的magic video和百度的UNIVG都在GitHub上发布了演示,尽管两者似乎都尚未向公众开放。与腾讯一样,阿里巴巴也将其视频生成模型VGen开源,这一策略在希望进入全球开发者社区的科技公司中越来越受欢迎。