Google Genie 3的详细分析：“创建一个祈祷，一个世界”

本文来自《微信公共帐户：Steam Cat Techmore》，作者：豌豆，标题照片。几秒钟后，您将看不到以前的渲染视频，而是直接驱动飞机并自由地穿越为您所生的世界。这不是科幻小说。这是一个未来的序言，该序言是由Google Deepmind de Genie 3的上一次发布所揭示的。我们在人工智能（AIGC）产生的内容浪潮中证明了诸如Sora，Runway和Pika之类的Pikas的令人难以置信的表演。但是，Genie 3的发布显示了基本的范式转变。它不是另一个视频生成工具，它是“一般交互环境”，或者更确切地说是“世界模型”。细胞核的区别在于，它改变了全球“活跃参与者”内容的“被动消费者”的用户，从而实现了“看起来”到“播放”的令人难以置信的飞跃。 Genie 3无处不在。他的诞生来自客观的isclear和伟大的享受。他的前任Genie 1和Genie 2，为创建AI代理可以训练的环境奠定了基础。从一开始，珍妮项目的最后任务直接表明人工智能的“圣杯” – 一般人造信息（AGI）。 Google DeepMind科学家反复强调多次，世界模型是通往AGI道路的重要基础。 Genie 3的推出还揭示了与AI最好的实验室之间的战略途径的深刻区别。当一些公司承诺改善AI强大的工具以提高人类创造力时，就像Sora为电影制片人服务并在中间成员服务时一样，Google正在奔向另一首曲目。在训练其他AI的“虚拟子宫”中AI纳入AI的这种差异不是功能的简单补偿，而是在高级人工智能之路的两个哲学选择和不同的策略。第一个打算赋予人类权力，而第二个则是P以Genie 3代表的ATH旨在创造机械智能，使他们能够独立学习和行动。这种基础差异是精确评估Genie 3的真实价值和普遍影响的关键。当前，该设备不接受繁殖。 1。不仅是“监视”，而且是“播放”。我们揭示了Genie3的四种主要技术。 Genie3之所以能够将“视频”跳到“世界”的原因是由于多种中心技术的巨大进步。这些进步共同创造了具有相互虚拟现实的前所未有的真实时间交易。突破1：Jeannie 3实时最直观的跳跃是实时的。可以生成并渲染每个人的分辨率为720p和24幅画（24 fps）。这与其前任的Genie 2形成了鲜明的对比。Geneie2花了几秒钟的时间来生成每幅画，并且无法提供柔和的互动体验。例如，精灵2的体验就像看到其他人玩游戏的录音，但是使用Genie 3，您可以启动自己的实时广播。无论是移动，跳跃还是地址，您执行的每个动作都会立即收到来自世界的回应，而不是发送请求并等待“绘制”以下屏幕框架。这种直接的反馈是人类和人工智能代理人学习的基石。只有在您可以立即对行动做出反应的环境中，代理人才能真正理解“因果关系”，并学会通过行动影响世界。突破性2：“相互作用范围”的分钟数分钟可以维持交互式和交互式会话“精细的“ callada“相互作用范围”），并且这种持久性决定了相互作用的深度。相比之下，Genie 2中交互式视野的理论上极限为60秒，但实际上，在10-20秒后产生的世界通常开始“ Decohore”，从而导致逻辑混乱或视觉de的“幻觉”现象裁缝。显着的相互作用长度意味着Genie 3可以允许模拟更复杂的任务，这些任务需要多个步骤才能完成。也就是说，培训代理人实施“长距离计划”很重要。对于人类用户来说，这意味着从短暂的技术演示更新到真正可探索的“微型”世界。突破3：紧急视觉记忆这是Genie 3的最令人惊讶的特征。世界有由物体和环境组成的变化，这些变化在视力消失后仍然存在。 Google官方演示的最经典例子是，当用户用滚筒刷的虚拟房间的墙壁上涂蓝色油漆时，然后转身探索其他地方。更重要的是，深层科学家强调，这种视觉记忆和世界一致性是“紧急”的能力，并且没有通过编码规则明确编程。它可以理解为一个非常强大的神经元网络，并且自愿延伸延长物理世界中“永久存在”的基本规则。此功能非常重要。虽然先前的模型似乎是有条件图像的生成器，但Genie 3开始建立一个基本且一致的“世界模型”。 AI可以理解“物体在看不见的情况下仍然存在”，离真实世界远的一步。突破4：快速世界活动Genie 3不仅允许世界上的Actuar用户，而且还允许用户动态地改变世界。输入新短信时，用户可以在当前环境中实时插入新的元素和事件，例如在滑雪场景中从空中加入鹿群，或将风暴召集到一个安静的湖泊中。这种能力赋予用户“主管”或“上帝”的力量。您不再是世界上的演员。您还可以实时更改脚本和场景，而不会中断体验。这意味着研究人员可以动态注入几个“ U在模拟环境中，Nexpected”和“假设”场景（即“反事实”）。当前，该设备不承认复制以下表：Genie Series模型的能力演变的比较：比较Genie系列模型的功能的演变：训练领域模型：编号“编号”编号“编号”编号“编号”编号。 1球员“由AI：真正的使命和商业计划De Ginny 3在游戏，教育等领域提供了有吸引力的观点。主要使命：Cruci Agi的Genius 3的最重要应用是培训AI代理商，尤其是“化身代理人”，尤其是“化身代理”，尤其是“机器人和自主工具”之类渴望。但是，在Genie 3产生的世界中，培训仓库机器人和自动驾驶汽车是缓慢的，昂贵的。g非常罕见的“黑天鹅”事件，大大提高了代理商的鲁棒性和可靠性。 Google正在培训Genie 3中的SIMA项目（可扩展多重代理），表明应用程序已经从理论转变为实践。在此背后，AI的发展概念有重大变化。从“基于数据的学习到“通过经验促进的经验”的过渡。传统的大型语言模型（LLM）已成为“学校老师”知道文本数据和互联网上大型图像的“学校老师”，并且是模式识别方面的专家，并没有直观地理解物理世界的因果关系。世界模型不再能够通过衡量砂盒进行衡量，以衡量自己的评论，并形成衡量的结果。记住物理定律，但是通过与环境的互动，就像人类的婴儿一样，逐渐建立了对物理世界。这种转变是从“书籍知识”到“实践知识”到“实践知识”到从模仿世界的智力过渡的过渡的关键步骤。应用程序2：在游戏行业推出Genie 3的观点无疑是有害的。从理论上讲，您可以减少创建游戏场景的时间从几个月到几分钟，从而大大降低发展成本。这是游戏发展的“民主化”。预计它将实现，即使是小型独立的研究，个人开发人员也可以具有创造史诗般的世界的能力。但是，理想与现实之间存在差距。一些经历过Genie 3的研究人员和游戏开发人员事先表示，作为“游戏引擎”，目前有明显的不便。例如，生成的游戏世界通常缺乏良好的“游戏感觉”，并且通常存在奇怪的图形错误。最多重要的是，它通过快速单词的控制方式是不精确或可预测的，也不能与成熟发动机（例如虚幻或统一性）的复杂版本功能相媲美。因此，在此阶段，Genie 3更适合不作为商业项目的生产工具，而是鼓励创造力或“原型创建工具”的“概念工具”，该工具可以迅速验证创造力或“原型工具”。但是，推动这一技术发展的强大经济促进者不可忽视。 3A场比赛的发展成本面临“成本危机”，投资了数亿美元，并且长期存在的发展周期不堪重负。 Genie 3代表的技术方向提供了解决这一中央经济问题的可能答案。因此，即使今天它不是完美的，它的未来发展，最终在该行业中采用似乎是一种不可逆转的趋势。 Applicationn 3：Futu对教育和模拟，精灵3的可能性也扩展到了教育领域。创建高度互动和身临其境的学习环境。想象一下，历史学生不再阅读无聊的文本，而可以与AI产生的老罗马国家的虚拟公民进行互动。医学专业的学生可以在模拟的急诊室反复练习，而无需冒险。这项技术与教育技术的更广泛趋势一致：使用生成的AI和模拟技术提供实用和个性化的学习经验，以弥补课堂的传统教学缺陷。当前，该设备目前与复制不兼容。 Genie 3，Sora和跑道之间的最佳对抗。对于普通用户，Genie 3，Sora和The Track似乎在做“ AI的GE视频”。但是，对中央技术和设计概念的详细分析表明，它们属于不同的规格s。中心差异：世界模型和视频模型最根本的差异是Genie 3用于模拟互动过程的世界模型，而Sora和Runw Son和Runw Son and Pik在油中代表了基于其描述的史诗般的战争场景。由主要的示范生成的史诗般的战争场景：由当前的示范来判断，由Sora产生的视频产生的视频与视觉忠诚度和视觉上的效果，视觉效果，视觉上的效果，视觉效果为视觉效果。相比之下，Genie 3的出口也达到了一个良好的水平，但具有“超现实”和“奇怪的山谷”，在细节方面不像Sora那样复杂。此差异归因于不同的优化目标。 Sora追求最终摄影的“视觉理性”，而Genie 3在互动过程中追求“身体一致性”和“逻辑连续性”。为了确保世界各州的互动和真正的时间稳定性，Genie 3必须牺牲一个代表质量的框架XTENT。成本和可访问性：目前，Genie 3仍处于严格控制研究的先前视图阶段，并且不适合常规用户。竞争对手的索拉（Sora），跑道和皮卡（Pika）也以商业产品向公众开放，并使用相对成熟的SaaS订阅或付款模式进行使用。这也反映了各种业务逻辑。 OpenAI和Tracks等公司必须通过创意工具迅速获得市场份额和现金流，但是Google拥有强大的财务资源，因此还有很长的路要走。它可以支持定期调查的深刻心态。 4。理想与现实：鉴于Genie 3的局限性和未来，Genie 3取得了里程碑，但是在成为一个成熟，可靠和普遍的世界模拟器之前，还有很长的路要走。面对当前的局限性，我们可以更合理地看到未来。当前有限的相互作用周期和稳定性：互动范围的分钟大量释放，但没有足够的匹盖式游戏或严重的模拟训练。 DeepMind承认，该模型必须能够稳定数小时，然后才能真正实用。此外，当您长时间跑步或处理复杂的场景时，世界仍然“凌乱”。保真度和人工制品：模型不能完美地复制真实的地理位置，通常伴随着一代过程中奇怪的图形伪影或扭曲。控制和“游戏感觉”：如上所述，通过自然语言指示控制的方式仍然非常困难，并且缺乏精度，这使其成为游戏引擎的最大障碍。复杂性管理：该模型涉及精细的物理互动（尤其是非辅助物体），生成清晰易于的文本来读取和模拟多个代理之间的复杂相互作用，仍然非常困难。 Genie 3的未来路径很明显。首要任务是连续扩展INT磨难的视野，提高忠诚度和稳定性，并提高控制的准确性。此外，一个令人兴奋的方向是将其与VR/AR技术相结合。为了实现这一目标，Genie 3的未来版本必须解决各种技术挑战，包括接收六个自由度（6DOF）和六个自由度（6DOF）的真实时间3D图像，这些图像保证了非常低的延迟和非常高的更新率。社区技术爱好者和研究人员可能已经采用了一些新的隐式3D表示神经屈光领域（NERF）或高斯爆发，以实现时空的一致性，但是与辣椒相比，它们更具动态和灵活性，这些辣椒暗示这背后带来了巨大的工程挑战。 5。您距离“元亚巴”和“通用人工智能”有多远？ Genie 3的发射是一个值得记住人工智能发展史的时刻。真正的含义不是提供“祈祷的游戏”对普通百姓来说，但要向世界展示一种新的有力的方法来建立AI的真正智慧。它是一种用于创建“工匠”（代理）的工具，不仅用于创建“工匠”（内容）。通过Genie 3，DeepMind创建了“世界模型”的具体，明智且略有抽象的概念。它表明，学习途径可以通过与虚拟世界互动来完成。这阐明了长途旅行的新方式的灯光。那么，这是否意味着传奇的“甲虫”或AGI已经接近？就“元元素”为例，诸如Genie 3之类的技术表明，实际上是一个动态的虚拟世界，无限宽，可以自由探索的技术不是由传统游戏（如传统游戏）的砖头手动建造的。强大的世界模型使您更有可能无所事事地“梦想”。 Genie 3是这款梦想机器的早期且非常原始的原型。对于AGI，Genie 3的出现并不意味着AGI已实施，而是IndiCATES认为，到达AGI所需的关键基础设施已经开始。就像一名工程师，在航空时代的早期建造了第一条风洞。尽管他们尚未建造超音速飞机，但它们创造了一个可以证明，迭代并最终放置超音速飞机的基本环境。从这个角度来看，Ginny 3的“魔术灯”进行了抛光，然后“精灵”将成为未来的人工智能，而不是我们今天看到的一切。本文来自我们的微信公共帐户。 Steamcattechmore，作者：Boil Guisante此内容是作者的独立观点，并不代表Huxiu的立场。我可以在未经许可的情况下复制它们。事实并非如此。要获得许可问题，请与Hezuo@huxiu.com通信本文来自Huxu。原始链接是https://www.huxiu.com/article/4707170.html?f=wyxwapp
特别声明：以前的内容（包括照片和视频（如果有的话）已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意：以前的内容（如果您有照片或视频）将由社交媒体平台NetEase Hao的用户收取和发布，仅提供信息存储服务。

admin

发表回复取消回复

admin

发表回复 取消回复

相关文章

发表回复取消回复