Yandex推出开源大语言模型训练工具,节省20%图形处理器资源
发布时间:2024年8月11日 分类:新闻资讯 浏览量:128
2024年6月11日,莫斯科跨国科技公司Yandex推出了用于训练大型语言模型的开源方法YaFSDP。这一工具用于增强GPU通信并减少LLM训练中的内存使用量。LLM训练依赖于组织成集群的大量GPU,而在集群中的处理器之间分配计算需要不断通信,这通常会成为“瓶颈”,减慢训练过程并导致计算能力的低效使用。为克服这一瓶颈,Yandex开发人员创建了YaFSDP。
YaFSDP的工作原理是消除GPU通信效率低下的问题,从而优化网络使用率并减少内存负载。它确保训练时只需要必要的处理器内存,并使GPU交互不间断,从而促进进一步的优化,例如最大限度地减少处理器通信时间。这可以显著提高性能和内存效率。
YaFSDP是FSDP的增强版,在LLM训练中最耗通信的阶段(如预训练、对齐和微调)中,其表现优于FSDP方法。官方表示,与FSDP相比,YaFSDP训练速度提升最高可达26%,具体取决于架构和参数量。通过使用YaFSDP减少LLM的训练时间可以节省高达20%的GPU资源。与Yandex的其他性能增强解决方案结合使用时,该方法可将某些模型的训练过程加速高达45%。
YaFSDP方法可以有效应用于基于transformer的多层文本生成模型(多层感知器)。MikhailKhruschev表示:“YaFSDP在130亿至700亿个参数的模型上表现出色,在300亿至700亿个参数范围内表现尤为惊人。目前,YaFSDP最适合基于LLaMA架构的广泛使用之开源模型。”与FSDP相比,YaFSDP在Llama2和Llama3上表现出的最终提速表明训练效率显著提高,在Llama270B和Llama370B上分别达到21%和26%。在一个具有700亿参数的模型的预训练场景中,使用YaFSDP可以节省大约150个GPU的资源,这相当于每月节省大约360万至1080万元人民币(取决于GPU提供商或平台)。