该模型的压缩为70%,并且可以保持100%的精度。这是无损压缩

作者: bet356体育官方网站 分类: 一些分享 发布时间: 2025-04-30 16:06
机器的心脏编辑:Chen Ping,+0大语言模型(LLMS)在广泛的自然语言处理活动(NLP)中显示出出色的功能。但是,它们迅速增长的规模为大扩展和推理带来了主要障碍,尤其是在计算有限或记忆源的环境中。例如,Llama-3.1-405b在BFLOAT16(16位大脑)参数中具有4050亿个参数,并且需要大约810GB的内存以进行完整推理,这超过了典型的高端GPU服务器的功能(例如,DGX A100/H100与8 80GB GPU)。因此,删除模型需要许多节点,这使其变得昂贵且稀缺。在本文中,赖斯大学等机构的研究人员提出了一种解决方案,可以在原始规模的70%中压缩theany bfloat16模型,同时保持任务的100%精度。纸张标题:70%的尺寸,100%准确性:通过动态LENGT的GPU推断的无损LLM压缩H Float纸张地址:https://arxiv.org/pdf/2504.11651项目地址:https://github.com/leanmodel striges in低表示为这大大减少了内存和计算要求的痕迹,有助于使资源销售环境中的理解和扩展更快。但是,体积本质上是损失的压缩方法,它引入了一个主要的劣势:它将不可避免地改变LLM的输出分布,从而影响模型的准确性和可靠性。相反,没有压缩损失的技术有效地降低了LLM的大小,而破坏了精确的原始权重,从而确保模型的输出分布与未压缩的表示完全相同(例如,Bfloat16)。但是,现有的损失方法主要集中于提高LLM存储效率,例如降低模型检查点或为FPGA等专用硬件执行性能。本文建议dfloat11(动态长度浮点),一个压缩框架损失将LLM大小降低30%,同时保持与原始模型完全相同的输出。 DFLOAT11提案来自当前LLM模型中Bfloat16权重的低熵问题,揭示了现有存储格式的显着胡说八道。通过应用熵的熵技术,dfloat11与体重减轻频率的动态长度相匹配而不会在任何准确性下失去任何损失,就可以在信息理论限制范围内实现压缩的影响。为了支持对折扣的动态长度的良好理解,该研究还开发了用于快速在线减压的自定义GPU核心。它的设计包括以下内容:记忆内存(LUT)分解为适合GPU SRAM的紧凑型查找表;采用双阶段内核设计,以通过光辅助变量来协调线程读写位置;并实现变压器块级减压以减少延迟。 Th研究对最新模型进行了实验,例如Llama-3.1,QWEN-2.5和Gemma-3:Dflat11可能会降低Dam Dami模型的近30%,同时保持准确的位位输出。与潜在的情况相比,DFLAT11在代币产生的世代中取得了1.9-38.8倍的改善,而这些情况将非压制模型零件卸载到CPU以应对内存限制。 DFLOAT11在固定的GPU内存预算下支持上下文长度5.3-13.13.17倍的未压缩模型。值得一提的是,基于这种方法,Llama-3.1-405b(810GB),而没有丧失对配备8×80GB GPU的单个节点的理解。程序通常使用浮点数(包括bfloat16或bf16)表示LLM的重量,这平衡了内存中数字和效率的准确性。但是,bfloat16表明信息不是很好。为了响应BFLOAT16表示的信息效率,本文提出了损失压缩框架,通过熵编码技术压缩浮点参数。具体的实现包括:基于语言模型的线性投影矩阵中所有bfloat16权重的指数分布的开发,使用霍夫曼编码来压缩指数零件,同时维护原始的符号位和mantisa位。压缩指数通过紧密的零件存储在字节阵列编码Expents中,而未压缩的位和Mantisa则存储在包装的独立字节阵列中。图2显示了DFLOAT11(动态长度浮点)或DF11,该格式可实现模型模型的有效而紧凑的表示。浮动数的动态长度可以有效地实现,而不会损失LLM压缩,主要的挑战仍然存在:如何将这些重量压缩使用以获得良好的GPU识别。接下来,文章的细节是解决方案,其中包括THREE主要成分:大量过时的查找(LUT)表正在腐烂成许多适合GPU SRAM的紧凑型LUT;引入了使用轻质辅助变量来有效地协调操作以读写操作的两阶段内核设计;在变压器块水平上进行减压,以改善高吞吐量并减少潜伏期。算法1是将DFLOAT11专用于Bfloat16的GPU核心过程。实验研究人员回顾了识别GPU中DF11压缩方法的有效性和效率,该方法从BFLAT16到DF11格式压缩了许多基本语言模型(包括Llama,Qwen,Gemma等),并报告了它们的压缩比和性能。在软件和硬件环境方面,研究人员使用CUDA和C ++实施了DF11减压内核,并将其集成到变形金刚推断的轮廓中。该实验评估了未压缩的CPU转动模型和多GPU场景的性能s基于拥抱面加速框架。为了通过各种硬件调整充分研究DF11核心性能,团队使用许多GPU和CPU组合进行了实验。实验结果DF11压缩率:DF11以原始大小的70%(位的等效宽度为11位)压缩大语言模型。 Iptable 2显示了DF11压缩对美洲驼,Qwen,Gemma和其他模型的影响。所有模型的线性投影层参数都压缩DF11格式,稳定的压缩比为70%。无损特征验证:为了验证DF11属性的丧失,研究人员使用LM评估 - harness工具来评估MMLU,FUTHFULQA,WITIKEXT和C4数据集中的模型性能。结果表明,压缩模型与原始BFLOAT16模型的准确性和混乱是一致的(见表3)。此外,研究人员稍微比较了DF11减压后的重量矩阵,以确认它是EXAC同样。绩效绩效:研究人员比较了许多平台上对DF11和BFLOAT16模型的识别效率。对于BFloat16模型,当模型超过单个GPU存储器时,需要将某些计算传输到CPU,而DF11模型可以将其完全加载到单个GPU中。分析的检查包括潜伏期和吞吐量,结果表明,DF11模型的性能明显优于BFLOAT16模型,而潜伏期的降低减少了1.85至38.83次(见图3)。视频内存支持更长的世代:DF11视频记忆刺激模型以支持更长的世代。如图4所示,当批量大小为1时,DF11模型的记忆消耗大大降低,并且与BFLOAT16.LA研究研究团队相比,最多可产生5.33至13.17倍的令牌。当批处理大小在BFLOAT16和DF11格式中不同时,其延迟。结果如图5所示。与原始模型相比,DF11压缩模型引入了解压缩变压器模块和头部建模头的其他延迟,但是此开销与批处理大小无关。因此,通过增加批处理的大小,可以有效地改变减压的延迟,从而大大缩小了总理解时间之间的差距。减压性能比较:研究人员将DF11减压内核的潜伏期和吞吐量与两个基线解决方案进行比较:重量重量的重量存储在CPU内存中,并将其移至GPUIF中; Decompression方法在NVIDIA的NVCOMP库中使用。该实验以Llama-3.1-8b-Instrukon语言为例,以lama-3.1-8b-instrukon语言为例。结果如图6所示。DF11的最大减压吞吐量为24.87倍D分别是CPU-GPU输送和屁股解码的15.12次。另外,DF11压缩率为70%,大于NVCOMP的78%。值得注意的是,随着矩阵重量大小的增加,由于更好地使用GPU线程,DF11的解压缩吞吐量增加。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!