不足以生成一个好的视频,您应该可以自由探索

Oasis 世界模型的演示动画。机器心脏的心:Zhang Qian,Zenan Bar的发展,最近骑了火箭。去年11月,由两家初创公司创建的Oasis是全球开放资源中的第一次实时,可玩和互动。生成的虚拟环境不仅包含图片,而且还反映了对物理和游戏政策的理解。绿洲世界模型的演示动画。今年4月,Microsoft Microsoft的开源Microsoft Microso Model Moduy Mineworld重新促进了视觉影响,并大大改善了同一代动作。矿世界模型的生成效应。上周,另一家外国开业公司开设了“多元宇宙”资源,使不同的玩家可以在世界模型中玩游戏。看到,在三维世界中,人工智能总监和NVIDIA的杰出科学家吉姆·范(Jim FanING的体现智能测试:如果您无法确定现实世界是否是AI方案,则可以将AI视为AI,然后AI完成了任务。从技术插条,应用和试用基准测试中,我们目睹了整个技术的增长,许多技术公司都在流动,好像大型模型的爆炸式增长即将发生。也许很快,通过计算平台处理的单元将不再是令牌,而是物理世界中的原子。现在,有更大的新闻:5月13日,昆伦·旺韦(Kunlun Wanwei)宣布了互动世界YETMATRIX-GAME模型的开源。这不仅是世界模型技术中的重要一步,而且是空间智能领域的互动世界的重要里程碑。 github:https://github.com/skyworai/matrix-gamehuggingface:https://huggingface.co/skywork/skywork/matrix/matrix-lame技术报告:https://github.com/skywork.com/skyworkai/matrix-sameworkai/matrix-same/blob/mmain/mmain/mmain/sasmain/reppp-ort.pdf项目主页:https://matrix-game-homepage.github.io作为主要的世界模型,矩阵游戏可以提出一个完整而互动的游戏世界,可以正确响应人们的输入操作指令,维护游戏世界的空间结构和游戏世界,图片的型号更加精致,以前的型号是世界的,是世界的空间结构和物理模型。当然,其应用程序的范围不仅限于游戏,但是培训代理商以及几代数据,电影和电视以及Meta-Universe-Universe也有一个重要的意义。 Kunlun Wanwei说,矩阵游戏使世界不再被观看,而是探索,操纵和创造。这种主动探索可能是在太空发展智能的关键。 Microsoftano的开放资源超越了矩阵游戏的实力?矩阵游戏(17b+)是沿Wor方向的Kunlun Wanwei矩阵系列模型的第一个实现LD的互动一代,也是世界领域行业中第一个开源10B+大型模型。早在今年2月,Kunlun Wanwei正式推出了Matrix-Zero World Model,后者在探索空间情报方面迈出了关键的一步。 Kunlun Wanwei说,Matrix-Zero实际上包含两个子模型,用于生成3D场景,而其他用于交互式视频世代的子模型。当时,有人问:交互式生成模型可以使用它来制作游戏吗?几个月后,Kunlun Wanwei给出了答案。此时发布的矩阵游戏是在游戏方向上实现了交互式视频生成模型。它可以基于用户输入(键盘命令,鼠标移动等)生成相互关联和控制的游戏交互式视频。与行业中的其他模型相比,它具有以下特征:1。它可以实现用户联系控制。在游戏中,您可以自由移动并通过PRE攻击SSing“ W,S,A,D,空间,攻击”和这些钥匙的组合。在矩阵游戏创建的Minecraft游戏世界中,如果Sigsnal Control(例如查看转换角度)或离散(例如向前,跳跃),并且每个动作都伴随着场景中的变化,则可以获得相同的体验。例如,在以下“前进 +攻击”场景中,游戏的角色走进森林并进入湖泊,而代表树的街区在遭到攻击后被摧毁。这是模型产生的环境反馈信号。此外,尽管湖泊和背面的大多数湖泊都被树木所阻挡,但该模型仍然会产生合理的结果,从而在整个过程中经常改变风景。在长期的“前进 - 左 - 通行证”的移动场景中,模型不仅是用户控制说明严格观察到的,而且还会在风景中产生变化,例如i的现实过程水中的mersion。 2。一代ISS忠诚度视觉和身体一致性的影响。在视频生成领域,如果您可以保持视觉一致性,并且遵守物理定律是判断视频质量的试金石。但是,从行业崩溃的各种视频中的判断,很难做得很好,在互动视频中孤独,这需要理解和互动效果。但是,矩阵游戏的性能引人注目,并且可以在身体上合理且视觉上恒定的接触结果产生。例如,在以下场景中,您左右移动的场景有时会被树干阻塞,但是随着脚步仍在移动,它们会再次出现,表明该模型能够保持视觉一致性。例如,在跳跃操作中,我们看到河流的视图改变了视图的变化(跳跃后,视角变得更高,我们将看到一个更加理解的水下图片)。这些都是基于这些物理定律的“综人”模型的结论。 3。在以前的示例中具有多样化的概括能力,我们发现矩阵游戏可以产生丰富的Minecraft游戏场景,例如森林,海滩,河流,平原等,涵盖了各种地形,天气和生物群落。实际上,除此之外,它通常也可以在非米尼克拉夫游戏环境中,它们形成了诸如城市和古老建筑之类的开放场景的交互式视频。 4。通过系统的审查系统,对于相对较新的模型,例如交互式视频世代,应评估一代的测量值?如果您不想理解此问题,那么模型很难在优化方面具有明确的方向。为了解决这个问题,Kunlun Wanwei建议了一个专为Minecraft World的建模 - GameWorld Mark设计的审查框架。具体来说,GameWorld Score从四个尺寸的模型中检查了该模型:视觉质量,时间互动,交互式控制和理解物理策略。视觉质量是指每个图像框架的结构和真实性的清晰度,一致性,这也具有该人注意到的视频质量的许多基本维度。上面提到了时间,交互控制和对物理政策的理解的一致性。这些尺寸合并了 - 我已经实现了一开始质量 +控制能力 +身体公义的ONEG综合互动视频测量,从而填补了现有基准的缺点。在这个基准测试中,矩阵游戏与绿洲,众所周知的脱发的开放解决方案和微软的开放资源竞争,并在所有四种尺寸中都取得了最高的结果。资料来源:双盲分析的矩阵游戏技术报告,矩阵游戏产生的视频标记也很重要:来源:基质游戏技术报告,在控制方面,矩阵游戏在“运动”和“攻击”和其他动作方面取得了超过90%的精度,并且仍然可以控制高校正的响应。资料来源:技术技术报告矩阵游戏是总体YETG-GENeralize的能力。在8种常见的Minecraft场景中,Matrix-Game保持了全面的领先优势,并在环境中显示出很大的灵活性,这意味着它可以广泛用于交互式世界中更复杂和动态的虚拟活动中。资料来源:技术矩阵游戏报告表明,从数据前景,模型或实际测量值中,矩阵游戏为当前交互式世界的世界设定了新的基准。矩阵游戏如何训练?在Kunlun Wanwei发布的一份技术报告中,我们可以看到,矩阵游戏的伟大成就在很大程度上是由于研究小组在数据中制定的现代技术,模型AR插座等。尝试让世界模型开发游戏场景,但他们经常发现很难有效的概括能力。矩阵游戏改变了它。这是一个世界基本模型,其参数量表为17B,重点是世界上的交互式图像的产生,并通过两阶段的训练策略(无针对标记数据进行预训练 +受控培训的数据)进行了培训,该数据使用了由Kunlun-Mc Kunlun-Mc Kunlun-Mc独立构建的大规模数据集。 Matrix-Game-MC数据集涵盖了从数据自由培训到使用受控视频平稳标签的整个过程。其中,标签预训练数据来自Minedojo的视频资源。研究团队使用矿体Jo Jo Jo Jo Juco工具来收集近6,000个小时的原始Minecraft游戏视频,并设计了一种三阶段的过滤机制,以确定图像图像的质量,动态的正义和稳定性的观点,并最终获得了超过2,700小时的MEdium数据质量和870小时的高质量数据,以支持基本模型难以忍受的预训练。空气条件部分是由两种技术的混合物生成的受控的管理数据:勘探剂和该过程的非真实模拟。这包括Minecraft游戏的高质量内容以及手动内置在不现实引擎中的交互式场景的模拟。它不仅包含准确的键盘和鼠标控制信号,而且还提供了位置信息,操作标签和环境反馈信号,数量近1,000小时。此外,由于合并了不切实际的数据,矩阵游戏总体上显示了更一般的游戏场景。图像到世界建模模型体系结构矩阵游戏旨在内部化真实的物理互动,语义结构并支持视频的交互式生成。从模型架构的角度来看,矩阵G的一般体系结构AME围绕世界的建模图像而设计。正如Matrix-Zero在2月份显示的那样,该系列模型的灵感来自空间智能,仅从原始图像中学习,并且可以参考单个图像来生成交互式视频内容。它通过开发一个非常相似的场景,而不是依靠语言信号,空间几何形状,物体的运动和物理接触仅基于视觉信号的方式来理解世界。其中,由视觉编码器或多模式骨干网络处理的引用的图像用作输入的基本条件,并且在高斯噪声和用户动作条件下,DIT形成了潜在的表示,然后在3D VAE DECODER之后以相干视频进行解码。可以直接通过视觉内容来实现,解释和模型的矩阵游戏,从而实现一致且结构化的理解。享受用户行动,世界模型可以直接GE像人工智能一代一样,将“ 3D游戏屏幕”变成。为了防止许多世界模型的戏剧性形成不断变化的长期内容,每个时间生成矩阵游戏都将在前5个运动框架中逐步发展为上下文,SHEDK的时间一致性。在与控制接触的问题中,人们(例如跳跃和攻击)输入的键盘动作以离散令牌表示,而视图的移动则以连续令牌表示。 May -set使用GameFactory Control模块,并包括多模式扩散变压器体系结构,并使用CFG技术来提高控制信号响应的稳定性。总而言之,矩阵游戏经过数千小时的高质量数据训练。通过模型的现代结构,它不仅意识到对人际关系的准确反应,而且还保持了生成内容的一致性和连贯性,从而从图像中取得了成功到世界的一代。在此范围的技术开发中,世界模型发现了诸如风险游戏生成和动态视频生成之类的传递应用程序。 Kunlun Wanwei对太空智能的愿景不仅仅是游戏的多模式和3D世界,这是Generative AI开发的下一个主要方向。在去年的演讲中,斯坦福大学教授Feifei Li在过去几十年中教会了我们在视觉智能方面的巨大发展,尤其是在深入研究的十年变化中,但是当前的视觉智能仍然存在局限性,主要集中在识别和理解二维图像上。现实世界是三维的。为了真正解决视觉问题并将其连接到动作,必须开发空间智能。太空智能是迈向全面情报的重要而关键的一步。通过提供太空机器,他们可以理解三维世界,从而实现MO复杂而高级的智力。 Kunlun Wanwei的Matrix-Game是世界上智力领域互动一代的重要一步,将对许多领域的发展产生重要影响。首先,从内容制造的角度来看,矩阵游戏可以支持较低的成本和更高的自由度,以产生丰富和受控的游戏地图和任务活动,这有助于开发游戏。此外,它也可以归因于Kunlun Wanwei的其他AI产品。例如,天和模型可以为矩阵游戏生成的世界游戏提供更智能的NPC交互式逻辑。 Mureka可以在背景和TU Exptimentnog中提供匹配的音乐,以制作动态生成的场景和视频; Skyreels可以为生成游戏提供更多照片和图。这些产品就像拼图。合并后,他们不仅可以帮助制作游戏,还可以帮助电影和电视制作,广告,XR和其他COntent。其次,从科学研究中,由矩阵游戏代表的空间智能是一个非常潜在的方向,因为它是体现的智能等。作为中国世界的第一个模型,具有视频生成中的交互式能力,矩阵游戏在促进国内智力发展方面具有重要意义。 “实现通用人工智能,并允许每个人更好地塑造自己并表达自己。”这是库伦·旺韦(Kunlun Wanwei)的使命。该任务在太空情报中具有更深的意义。当人们可以在三维世界中独立创建和互动,而当想象力不再受到技术阈值的影响时,我们确实是开放的Kunlun Wanwei,它具有奖励模型,多模式,推论,视频世代等的一系列SOTA级别模型的来源,并且现在赢得了Space Intellighene of Intellighene of Space of Space of Space的另一游戏。 Kunlun Wanwei布局变得更加清晰D更多恶意:发展AI创建的完整生态系统。在这个生态系统中,每个人都可以找到自己的变化变化,每个创造力都有机会快速成为产品。想象力真正提高生产力的一段时间。

Related Posts

Comments are closed.