
资料来源:DeepTech如果您有机会在幕后瞥见人工智能模型形成视频的幕后,那么您怎么看?也许您认为这与制作停止动画的方式相同 - 将大量图像组合在一起。但是,对于“扩散模型”,例如Openai的Sora和Google的VEO 2。而不是通过框架开发视频框架(或“自动估计”),而是使整个续集同步。尽管所产生的剪辑往往具有图像级别的现实主义,但该过程是缓慢且无法撤销的。最近,MIT计算机科学和人工智能实验室(CSAIL)和Adobe Research的科学家开发了一种称为“ Causvid”的混合方法,该方法可以以每秒9.4帧的速度实时生产高质量的Video,而第一帧潜伏期仅为1.3秒。该系统通过扩散的完整序列模型来训练自回旋系统,以免它仅迅速预测下一个图像框架,还可以确保图像质量和一致性。基于简单的文本信号,Causvid可以实现各种创作:将图片仍然转换为动态场景,扩展视频持续时间,甚至根据生成过程中的新说明实时更改内容。该技术是最初需要在许多动作中需要50个步骤的过程,从而实现快速交互式内容的创建。它可以创造许多富有想象力的艺术场景:纸飞机变成天鹅,穿越雪地的马布莫医师,孩子们跳入水坑里。用户还可以进行一些创造:首先输入初始说明以“提出要越过道路的人”,当角色到达相对的人行道时,添加一个新的元素,“他拿起笔记本上的笔记本以从口袋里写信”。该模型可用于各种视频编辑任务,例如帮助观众理解Deve的不同语言中的生命与音频翻译同步的视频;它还将有助于在视频游戏中渲染新内容,或者快速开发培训模拟来教机器人完成新任务。 Causvid可以被视为“教师学生模型”。其中,整个肺部的潜水都像“老师”要多得多。这就像一个驱动Sora或veo的强大模型,很高兴了解整个视频流时间。他们可以同时想象一个开始,中间和结束 - 掌握运动的细微差别,事物的维护以及一般场景的稳定性随着时间的流逝。这种全面的理解使他们能够制作出极为稳定且高分辨率的视频,但是立即处理整个订单需要许多计算来源,并且本身需要缓慢。 “学生”是一种更简单的自回归模型。自回归模型基于以下的上一个元素预测下一个元素。在视频环境中,这个我ANS根据当前的Frameand预测下一帧。此顺序处理本质上比测试更快地了解所有内容。但是,生产纯回归视频的尝试通常会失败,最大的陷阱是“误差积累”。想象一下,在尝试每个后续帧时,模型有一些小错误。随着时间的流逝,这些小错误会累积,从而导致视觉,抖动和高质量视频播放的不一致。输出可以开始流畅,但是它可能会在视觉上很快变得令人困惑。 Causvid使用教师的模型观点勤奋使用,从而避免了这个问题。整个老师的生育模式都可以理解视频的整个视频,并在培训阶段为Autoregr Student Modective提供专业知识。这不仅是要告诉学生“下一帧是什么样的,而是在学生的模型中训练以了解E稳定视频生成的基本动力和一致性要求。重要的是,教师的模型教学学生如何不仅可以快速预测未来的帧,而且始终可以预测并继续与以下内容的高度理解保持一致。这与缺乏该通用指南的方法的原因是一个重要的区别。通过培训教师模型的高质量输出并从其全球理解中受益,学生模型可以学会快速预测后续帧,而不会遇到诸如以前的模型之类的综合错误。当研究人员尝试Causvid生成10秒高清视频的能力时,这些型号是视频制造的出色才能。它的性能不仅仅是基线模型,例如“ Opensora”和“ Moviegen”,而且一代的速度比竞争对手快100倍,并且可以输入最稳定,最优质的视频剪辑s。该团队甚至测试了Causvid形成30秒长的视频的稳定性,这在图像质量一致性方面也损害了相似的模型。这些结果表明,技术有望在数小时甚至无限的时间内实现稳定的视频生成。值得注意的是,作为研究的一部分进行的用户研究提供了对Sanhivid功能的实践经验的重要见解。与基于传播技术的教师模型相比,大多数用户更喜欢由学生模型生成的视频。纸 - 集的tianwei yin,“自回归模型的速度都在决定,其视频质量与老师的模型相当,尽管出现的时间较少,但其视觉差异的成本略有较小。” Causvid使用Text-Video数据集进行了900多个及时的测试,以全面的84.27标记为列表。它的性能在影像质量和动作等指标中特别出色f拟人化,超过了视频生成的主要模型,例如“ vChitect”和“ gen-3”。尽管Causvid在AI视频生成领域取得了巨大的成功,但预计其生成速度可以通过流式传输原因的架构来提高,甚至实现了实时生成。天文尹说,如果经过特定的域数据集接受培训,该模型将为机器人和游戏行业提供更好的视频内容。专家认为,这种混合系统是对当前通过处理速度拖动的当前扩散模型的重要升级。 “ ang mga umiiral na nag视频ay mas mabilis kaysa sa mga maga mageo dika ng wika o wika o mga ng henerasyon ng imahe,“卡内基·梅隆大学,纳印第安Ito Ay Makabuluhang Nagpabuti sa Kahusayan ng Henerasyon,Nangangahulugang Mas Masaayos Na Bilis ng ng流媒体,Mas Malakas Na PotensyalIsang Mas Mababang bakas ng碳的Na Interactive na aplikasyon。 ”研究得到了亚马逊科学学院,Adobe,Google,美国空军研究实验室和美国空军人工智能加速器的支持。CAUSVID技术在6月的计算机视觉和模式识别(CVPR)国际会议上正式播出。 https://news.mit.edu/2025/causevid-hybrid-ai-model-refts-smooth-mooth-mooth-mooth-egrigh-quality-exection-in-seconds-0506