BYTESEED团队博士

作者: bet356亚洲版本体育 分类: 奇闻 发布时间: 2025-04-30 16:06
机器的心脏编辑:DU WEI最近,诸如DeepSeek-R1和OpenAI O1/03之类的识别模型通过研究增强(例如PPO,GPRO)来探索了在训练后阶段的缩放时间,并产生了长期的链(COTS)(COTS)(COTS)(COTS),并实现了诸如Olympic Mathempic Mathematics的重要意义。受到这一点的启发,研究人员开始探索训练阶段的扩张时间,现有方法包括文本,输入潜在的矢量(例如椰子),在概念cocomix中以中间状态的中间层多重层隐藏状态(例如cotformer)和中间状态中的映射。但是,这些方法是常见的问题,例如需要更大的KVCache导致消耗缓慢/基本记忆消耗。在本文中,来自Bontedance种子团队的研究人员提出了一个更简单的过程:重复输入令牌(1/2/3/4次)而无需层间处理。他们注意到失去培训的步伐和该模型的性能如下所示,如下图1a和1b所示。但是,直接重复令牌还带来了新的问题,包括kV缓存大小的线性增加和高内存压力;预填充时间过多的线性增加;并更长的延迟延迟。这些是实施预训练长度的扩展时需要面临的挑战。纸张标题:出色的假装缩放量表地址:https://arxiv.org/pdf/2504.14992研究人员提出了一个挑战小说的小说长度,以及基本的PHD变形器(在平行的隐藏解码变压器中),与KV CACENCE相同,同时保持了与原始的变形金体相同的尺寸。 PHD转换器通过创新的KV高速缓存管理技术实施功能。具体而言,研究人员代表了代表原始令牌的第一个令牌,并且是代币解码的重复令牌。同时,只有KV缓存从原始令牌中形成的是为了在远处建模希望,并在隐藏的解码令牌被用于下一个令牌预测后抛出其KV缓存。因此,与代币的S Simpute重复相比,PHD转换器提供与原始变压器相同的KV缓存(如图1D所示)。此外,为了更好地维持隐藏解码令牌的KV缓存的性能优势,研究人员引入了滑动窗口的关注-PhD -SWA。为这些令牌维护本地滑动窗口缓存,只有在实现重大改进的同时,仅需要的KV缓存的额外内存。研究人员还指出,在PhD-SWA中,隐藏解码令牌的KV缓存显示了一系列依赖性,从而导致预填充时间的线性增加。为了解决这个问题,研究人员建议逐个阻塞的滑动窗口注意CSWA CSWA CSWA,从而逐步限制每个块内的依赖项。因此,由于仅针对最后一个区块的预填充OR的线性增加,因此PHD-CSWA明显缩短了预填充小时(如图1C所示)。方法一般 - 定义博士架构如下图2所示。与原始变压器相比,博士保持相同的模型体系结构,仅在收养设计方面有所不同 - 遵循输入和注意力矩阵。具体而言,它们仅允许原始令牌产生KV缓存,并可以向所有令牌提供全球关注。同时,隐藏的kV缓存将在隐藏在平行中后立即处置。矩阵的注意方法如下:研究人员在推理过程中实现了与原始变压器相同的KV缓存大小和内存访问模式。尽管需要K拖鞋,但可以类似地处理这些计算,从而减少了由内存强迫的场景阻碍的延迟。主这种架构的优势在于原始令牌和隐藏的解码令牌之间的衰减。在填充季节期间,仅需要计算原始令牌。这种设计确保了预填充时间与原始变压器相同,并且无论扩展因子K的变化如何,预填充时间保持不变。对于损失计算,研究人员仅使用令牌的最终副本来对近乎标记进行预测。简而言之,将令牌的第一份副本用于KV CACE生成,然后将令牌的最终副本用于下一个令牌预测。内核设计的简单实现M^ij_mn将导致k^2次关注层,并且FFN层的计算增加了k时间。但是,注意力稀少,可以大大降低注意力。因此,研究人员将原始令牌和隐藏的奉献代币分为两组,并将其组合在一起。下面的图3 shows k = 3的实例,可以获得含有2T隐藏季节的续集的原始令牌和续集-next。通过调整令牌位置,研究人员通过维持掩盖关注对连续块的位置的位置来优化注意力计算,从而降低了对PHD-SWA和PHD-CSWA的注意的复杂性,而PhD转换器的简单重复是KV的扩展的长度。但是,从经验上观察到,用于隐藏代币解码的离子KV缓存可以带来重大的性能改善。因此,为了在保持效率的同时获得这些优势,研究人员介绍了PhD-SWA,将滑动窗口的注意力限制在先前的隐藏令牌上。如下图4所示,PHD-SWA的注意模式将对原始令牌的全局访问与本地访问与最新的隐藏令牌结合在一起。提高的注意机制在只需要进一步的缓存内存kV的同时,已经实现了显着的性能改进。尽管PHD-SWA滑动窗口方法改善了模型性能,但由于隐藏解码令牌的KV缓存的连续依赖关系,它激发了预填充开销的时间。为了解决这个问题,介绍的研究人员是PhD-CSWA,它可以在独立块中关注。如下图4所示,PHD-CSWA限制了滑动窗口的注意力从单个块内运行。这种架构的变化减少了最终区块中K重复的进一步预填充开销,而不是对订单的全部重复进行,这几乎没有忽略额外的计算成本,同时保持了当地注意力模式的优势。实验结果在实验中,研究人员将OLMO2用作代码库,并在ARC,Hellaswag,Piqa,Winogrande,MMLU和CommonSenseQA等公共基准集中进行了审查。培训详细信息:研究人员使用1.2B量表模型,这是一个16层密集型模型。 BA Layerwat代币的隐藏大小设置为2048,FFN层的隐藏大小在16384中设置为16384。同时使用了注意力疑问注意力(GQA),每个头部均包含32个查询标头和8个密钥/值标头,每个头部的隐藏层尺度设置为64个。研究人员使用500B代币来训练模型。对于本文提出的博士学位系列的设置,研究人员假设了以下两个PHD-CSWA变体:PHD-CSWA-2-16-32,其中一遍又一遍地重复训练令牌。保留一个带有16个令牌的本地窗口,并将块大小设置为32个令牌。 PhD-CSWA-3-16-32,重复训练令牌三次。在PHD-CSWA-2-16-32设置中,本地窗口大小和块大小相同。 PhD-CSWA在所有基准测试方面都取得了持续的性能提高。消耗咖喱如下图5所示,主要结果如下表1所示。文章中的博士学位建议A-2-16-32成就ED这些基准平均精度为1.5%,训练损失降低了0.025;尽管PhD-CSWA-3-16-32的PhD-CSWA-3-16-32平均达到了2.0%的精度,而训练损失的降低了0.034。研究人员还回顾了扩展的博士学位和博士学位SWA表现,以研究解码扩展计算的性能。训练详细信息:使用相同的550m型号调整,将窗口大小W设置为16,然后更改范围内的膨胀因子K {2、3、5}。对于本地窗口大小,研究人员在所有实验中将窗口大小设置为16。当膨胀因子膨胀因子时,PHD-SWA性能有效地扩大。如下图8所示,当使用固定的窗口大小时,曲线和下游性能的损失将有效地扩展,并随着令牌重复的数量而扩展。通过将扩展因子设置为5,可以减少近0.06的损失,同时显着提高流量的性能。这表2中的结果数量表明,当扩展到k = 5时,所有基准测试的平均准确性增加了1.8%,证明本文程序在更加激进的规模上仍然有效。有关更多实验结果,请参阅原始论文。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!