Aofeisi Qubits的Henry |官方帐户QBITAI大型语言模型仅在解决精神算术问题时才取决于最后一个令牌?最近,加州大学圣克鲁斯分校,乔治·梅森大学和数据犬的研究人员发现,几乎所有真正的数学计算都集中在序列的最终记录上,而不是将其分散在所有令牌中。这意味着,与对跨性别和多层感知器(MLP)全球信息相比,与某些任务相比,全球访问并不是某些任务(例如精神算法)。这意味着每个令牌可以通过咨询使用,并通过对预测时上述信息的完整咨询来使用。发生了什么?您是否有最后的令牌对精神算术?呢通常,研究人员根据平均环境消融(BED)的护理,使用偷窥狂在模型中进行了一系列消融实验。这些前物品研究系统地消除或修改模型的部分以提高模型的性能而没有问题的“最小复杂性”。 In this process, the researchers discovered that the scattered sub -graphs are formed within the model: we call it “everything for one, AF1). This subrograph allows the model to efficiently complete the operations with the smallest computer lay Transmit information to all previous tokens through autocatalytic mechanisms, and each token can pass through a multi -layer perceptron (MLP) performs its owns Independent calculations in parallel in parallel. Steps to探索:首先,模型的初始层抑制了特定条目的令牌他的,他们使用了平均有意识的上下文(床)。床纸是在保留每个令牌的通用计算机功率的同时,阻止令牌之间的特定输入信息。接下来,限制各个令牌位置的信息传递路线。简单地做到并在L_ Transfer层中的所有令牌都可以访问最后一个令牌,其余层仅集中在自己上。最后,强制其余层的最后一个令牌中的所有计算。床只能从第一层开始,因此研究人员引入了一种控制有关任何层信息的访问的方法。这精确地指定了更改注意力面膜时的“关键咨询”令牌。在本文档中,研究人员主要使用了两种模式:完整的piquing:代币可以专注于所有令牌。阶段,最后的令牌也会在这种方式上发生变化。实验,研究人员能够确定哪些Call-3-8B执行一般任务计算(床层)+b+c的任务发现,我们首次需要14层,最后一个令牌通过传输两层信息恢复了全局信息,而其余层仅在执行最后一层之前。该子图几乎保留了下面的F1_llama的所有表现,研究人员检查了Flame-3-8B和Call-3.1-8B中AF1_LLAMA的性能。实验表明,AF1_LLAMA在八个任务中表现出很高的一般忠诚。此外,该实验进一步验证了Llama-3-8B第15和16层信息传输的重要性。研究表明,只有少数注意力头对算术计算很重要,即使消除了近60个头部,该模型也可以保持大约95%的精度,大多数注意力头是冗余的,并且钥匙头集中在少量层中。此外,其他研究还介绍了在应用程序问题或python代码要研究是否可以在火焰-3-8b中概括为代表操作A+B和A-B的其他算术形式。该实验表明,AF1_LLAMA对于不包括其他语义上下文的直接算术任务仍然保持很高的精度。但是,它在需要语义理解的任务中完全失败,例如应用程序问题或Python代码。这表明需要其他组件来处理其他功能,例如了解自然语言和Python程序。最后,研究人员还发现了与Python和GPT-J中AF1相似的子裂缝,但是与火焰不同,这些模型的等待时间更短(L_WAITы9-11),较长的信息传输层和较轻的性能限制较轻。尽管忠诚度通常低于火焰,但二进制计算机任务可以恢复原始模型精度的一半以上。通常,这项工作贡献了毒素。在大型语言模型中,对跨尺度触摸计算的NCE和机械理解。此外,床和ABP用于提供算术任务以外的更广泛的应用。省的方法论创新以一种简单的方式。 [1] https://x.com/rohanpaul_ai/status/196678202238448101 [2] https://www.arxiv.org/pdf/pdf/2509.09650
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果有照片或视频)已由社交网络平台NetEase Hao的用户收取和发布,仅提供信息存储服务。