本文来自《微信公共帐户:Steam Cat Techmore》,作者:豌豆,标题照片。几秒钟后,您将看不到以前的渲染视频,而是直接驱动飞机并自由地穿越为您所生的世界。这不是科幻小说。这是一个未来的序言,该序言是由Google Deepmind de Genie 3的上一次发布所揭示的。我们在人工智能(AIGC)产生的内容浪潮中证明了诸如Sora,Runway和Pika之类的Pikas的令人难以置信的表演。但是,Genie 3的发布显示了基本的范式转变。它不是另一个视频生成工具,它是“一般交互环境”,或者更确切地说是“世界模型”。细胞核的区别在于,它改变了全球“活跃参与者”内容的“被动消费者”的用户,从而实现了“看起来”到“播放”的令人难以置信的飞跃。 Genie 3无处不在。他的诞生来自客观的isclear和伟大的享受。他的前任Genie 1和Genie 2,为创建AI代理可以训练的环境奠定了基础。从一开始,珍妮项目的最后任务直接表明人工智能的“圣杯” – 一般人造信息(AGI)。 Google DeepMind科学家反复强调多次,世界模型是通往AGI道路的重要基础。 Genie 3的推出还揭示了与AI最好的实验室之间的战略途径的深刻区别。当一些公司承诺改善AI强大的工具以提高人类创造力时,就像Sora为电影制片人服务并在中间成员服务时一样,Google正在奔向另一首曲目。在训练其他AI的“虚拟子宫”中AI纳入AI的这种差异不是功能的简单补偿,而是在高级人工智能之路的两个哲学选择和不同的策略。第一个打算赋予人类权力,而第二个则是P以Genie 3代表的ATH旨在创造机械智能,使他们能够独立学习和行动。这种基础差异是精确评估Genie 3的真实价值和普遍影响的关键。当前,该设备不接受繁殖。 1。不仅是“监视”,而且是“播放”。我们揭示了Genie3的四种主要技术。 Genie3之所以能够将“视频”跳到“世界”的原因是由于多种中心技术的巨大进步。这些进步共同创造了具有相互虚拟现实的前所未有的真实时间交易。突破1:Jeannie 3实时最直观的跳跃是实时的。可以生成并渲染每个人的分辨率为720p和24幅画(24 fps)。这与其前任的Genie 2形成了鲜明的对比。Geneie2花了几秒钟的时间来生成每幅画,并且无法提供柔和的互动体验。例如,精灵2的体验就像看到其他人玩游戏的录音,但是使用Genie 3,您可以启动自己的实时广播。无论是移动,跳跃还是地址,您执行的每个动作都会立即收到来自世界的回应,而不是发送请求并等待“绘制”以下屏幕框架。这种直接的反馈是人类和人工智能代理人学习的基石。只有在您可以立即对行动做出反应的环境中,代理人才能真正理解“因果关系”,并学会通过行动影响世界。突破性2:“相互作用范围”的分钟数分钟可以维持交互式和交互式会话“精细的“ callada“相互作用范围”),并且这种持久性决定了相互作用的深度。相比之下,Genie 2中交互式视野的理论上极限为60秒,但实际上,在10-20秒后产生的世界通常开始“ Decohore”,从而导致逻辑混乱或视觉de的“幻觉”现象裁缝。显着的相互作用长度意味着Genie 3可以允许模拟更复杂的任务,这些任务需要多个步骤才能完成。也就是说,培训代理人实施“长距离计划”很重要。对于人类用户来说,这意味着从短暂的技术演示更新到真正可探索的“微型”世界。突破3:紧急视觉记忆这是Genie 3的最令人惊讶的特征。世界有由物体和环境组成的变化,这些变化在视力消失后仍然存在。 Google官方演示的最经典例子是,当用户用滚筒刷的虚拟房间的墙壁上涂蓝色油漆时,然后转身探索其他地方。更重要的是,深层科学家强调,这种视觉记忆和世界一致性是“紧急”的能力,并且没有通过编码规则明确编程。它可以理解为一个非常强大的神经元网络,并且自愿延伸延长物理世界中“永久存在”的基本规则。此功能非常重要。虽然先前的模型似乎是有条件图像的生成器,但Genie 3开始建立一个基本且一致的“世界模型”。 AI可以理解“物体在看不见的情况下仍然存在”,离真实世界远的一步。突破4:快速世界活动Genie 3不仅允许世界上的Actuar用户,而且还允许用户动态地改变世界。输入新短信时,用户可以在当前环境中实时插入新的元素和事件,例如在滑雪场景中从空中加入鹿群,或将风暴召集到一个安静的湖泊中。这种能力赋予用户“主管”或“上帝”的力量。您不再是世界上的演员。您还可以实时更改脚本和场景,而不会中断体验。这意味着研究人员可以动态注入几个“ U在模拟环境中,Nexpected”和“假设”场景(即“反事实”)。当前,该设备不承认复制以下表:Genie Series模型的能力演变的比较:比较Genie系列模型的功能的演变:训练领域模型:编号“编号”编号“编号”编号“编号”编号。 1球员“由AI:真正的使命和商业计划De Ginny 3在游戏,教育等领域提供了有吸引力的观点。主要使命:Cruci Agi的Genius 3的最重要应用是培训AI代理商,尤其是“化身代理人”,尤其是“化身代理”,尤其是“机器人和自主工具”之类渴望。但是,在Genie 3产生的世界中,培训仓库机器人和自动驾驶汽车是缓慢的,昂贵的。g非常罕见的“黑天鹅”事件,大大提高了代理商的鲁棒性和可靠性。 Google正在培训Genie 3中的SIMA项目(可扩展多重代理),表明应用程序已经从理论转变为实践。在此背后,AI的发展概念有重大变化。从“基于数据的学习到“通过经验促进的经验”的过渡。传统的大型语言模型(LLM)已成为“学校老师”知道文本数据和互联网上大型图像的“学校老师”,并且是模式识别方面的专家,并没有直观地理解物理世界的因果关系。世界模型不再能够通过衡量砂盒进行衡量,以衡量自己的评论,并形成衡量的结果。记住物理定律,但是通过与环境的互动,就像人类的婴儿一样,逐渐建立了对物理世界。这种转变是从“书籍知识”到“实践知识”到“实践知识”到从模仿世界的智力过渡的过渡的关键步骤。应用程序2:在游戏行业推出Genie 3的观点无疑是有害的。从理论上讲,您可以减少创建游戏场景的时间从几个月到几分钟,从而大大降低发展成本。这是游戏发展的“民主化”。预计它将实现,即使是小型独立的研究,个人开发人员也可以具有创造史诗般的世界的能力。但是,理想与现实之间存在差距。一些经历过Genie 3的研究人员和游戏开发人员事先表示,作为“游戏引擎”,目前有明显的不便。例如,生成的游戏世界通常缺乏良好的“游戏感觉”,并且通常存在奇怪的图形错误。最多重要的是,它通过快速单词的控制方式是不精确或可预测的,也不能与成熟发动机(例如虚幻或统一性)的复杂版本功能相媲美。因此,在此阶段,Genie 3更适合不作为商业项目的生产工具,而是鼓励创造力或“原型创建工具”的“概念工具”,该工具可以迅速验证创造力或“原型工具”。但是,推动这一技术发展的强大经济促进者不可忽视。 3A场比赛的发展成本面临“成本危机”,投资了数亿美元,并且长期存在的发展周期不堪重负。 Genie 3代表的技术方向提供了解决这一中央经济问题的可能答案。因此,即使今天它不是完美的,它的未来发展,最终在该行业中采用似乎是一种不可逆转的趋势。 Applicationn 3:Futu对教育和模拟,精灵3的可能性也扩展到了教育领域。创建高度互动和身临其境的学习环境。想象一下,历史学生不再阅读无聊的文本,而可以与AI产生的老罗马国家的虚拟公民进行互动。医学专业的学生可以在模拟的急诊室反复练习,而无需冒险。这项技术与教育技术的更广泛趋势一致:使用生成的AI和模拟技术提供实用和个性化的学习经验,以弥补课堂的传统教学缺陷。当前,该设备目前与复制不兼容。 Genie 3,Sora和跑道之间的最佳对抗。对于普通用户,Genie 3,Sora和The Track似乎在做“ AI的GE视频”。但是,对中央技术和设计概念的详细分析表明,它们属于不同的规格s。中心差异:世界模型和视频模型最根本的差异是Genie 3用于模拟互动过程的世界模型,而Sora和Runw Son和Runw Son and Pik在油中代表了基于其描述的史诗般的战争场景。由主要的示范生成的史诗般的战争场景:由当前的示范来判断,由Sora产生的视频产生的视频与视觉忠诚度和视觉上的效果,视觉效果,视觉上的效果,视觉效果为视觉效果。相比之下,Genie 3的出口也达到了一个良好的水平,但具有“超现实”和“奇怪的山谷”,在细节方面不像Sora那样复杂。此差异归因于不同的优化目标。 Sora追求最终摄影的“视觉理性”,而Genie 3在互动过程中追求“身体一致性”和“逻辑连续性”。为了确保世界各州的互动和真正的时间稳定性,Genie 3必须牺牲一个代表质量的框架XTENT。成本和可访问性:目前,Genie 3仍处于严格控制研究的先前视图阶段,并且不适合常规用户。竞争对手的索拉(Sora),跑道和皮卡(Pika)也以商业产品向公众开放,并使用相对成熟的SaaS订阅或付款模式进行使用。这也反映了各种业务逻辑。 OpenAI和Tracks等公司必须通过创意工具迅速获得市场份额和现金流,但是Google拥有强大的财务资源,因此还有很长的路要走。它可以支持定期调查的深刻心态。 4。理想与现实:鉴于Genie 3的局限性和未来,Genie 3取得了里程碑,但是在成为一个成熟,可靠和普遍的世界模拟器之前,还有很长的路要走。面对当前的局限性,我们可以更合理地看到未来。当前有限的相互作用周期和稳定性:互动范围的分钟大量释放,但没有足够的匹盖式游戏或严重的模拟训练。 DeepMind承认,该模型必须能够稳定数小时,然后才能真正实用。此外,当您长时间跑步或处理复杂的场景时,世界仍然“凌乱”。保真度和人工制品:模型不能完美地复制真实的地理位置,通常伴随着一代过程中奇怪的图形伪影或扭曲。控制和“游戏感觉”:如上所述,通过自然语言指示控制的方式仍然非常困难,并且缺乏精度,这使其成为游戏引擎的最大障碍。复杂性管理:该模型涉及精细的物理互动(尤其是非辅助物体),生成清晰易于的文本来读取和模拟多个代理之间的复杂相互作用,仍然非常困难。 Genie 3的未来路径很明显。首要任务是连续扩展INT磨难的视野,提高忠诚度和稳定性,并提高控制的准确性。此外,一个令人兴奋的方向是将其与VR/AR技术相结合。为了实现这一目标,Genie 3的未来版本必须解决各种技术挑战,包括接收六个自由度(6DOF)和六个自由度(6DOF)的真实时间3D图像,这些图像保证了非常低的延迟和非常高的更新率。社区技术爱好者和研究人员可能已经采用了一些新的隐式3D表示神经屈光领域(NERF)或高斯爆发,以实现时空的一致性,但是与辣椒相比,它们更具动态和灵活性,这些辣椒暗示这背后带来了巨大的工程挑战。 5。您距离“元亚巴”和“通用人工智能”有多远? Genie 3的发射是一个值得记住人工智能发展史的时刻。真正的含义不是提供“祈祷的游戏”对普通百姓来说,但要向世界展示一种新的有力的方法来建立AI的真正智慧。它是一种用于创建“工匠”(代理)的工具,不仅用于创建“工匠”(内容)。通过Genie 3,DeepMind创建了“世界模型”的具体,明智且略有抽象的概念。它表明,学习途径可以通过与虚拟世界互动来完成。这阐明了长途旅行的新方式的灯光。那么,这是否意味着传奇的“甲虫”或AGI已经接近?就“元元素”为例,诸如Genie 3之类的技术表明,实际上是一个动态的虚拟世界,无限宽,可以自由探索的技术不是由传统游戏(如传统游戏)的砖头手动建造的。强大的世界模型使您更有可能无所事事地“梦想”。 Genie 3是这款梦想机器的早期且非常原始的原型。对于AGI,Genie 3的出现并不意味着AGI已实施,而是IndiCATES认为,到达AGI所需的关键基础设施已经开始。就像一名工程师,在航空时代的早期建造了第一条风洞。尽管他们尚未建造超音速飞机,但它们创造了一个可以证明,迭代并最终放置超音速飞机的基本环境。从这个角度来看,Ginny 3的“魔术灯”进行了抛光,然后“精灵”将成为未来的人工智能,而不是我们今天看到的一切。本文来自我们的微信公共帐户。 Steamcattechmore,作者:Boil Guisante此内容是作者的独立观点,并不代表Huxiu的立场。我可以在未经许可的情况下复制它们。事实并非如此。要获得许可问题,请与Hezuo@huxiu.com通信本文来自Huxu。原始链接是https://www.huxiu.com/article/4707170.html?f=wyxwapp
特别声明:以前的内容(包括照片和视频(如果有的话)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。