近期,俄罗斯跨国科技公司Yandex继高性能库CatBoost,大数据平台YTsaurus等高科技开源工具后,推出新一代开源工具—YaFSDP,或将成为目前最有效的公开可用工具,用于增强GPU(图形处理器)通信并减少LLM(大语言模型)训练中的内存使用量,最高可提高26%训练效率,节省20%的GPU资源,预计每月可为企业可节省数十万美元。
据介绍,大型语言模型训练是一个耗时且资源密集的过程,自行开发大型语言模型的机器学习工程师和企业会投入大量时间和图形处理器资源来训练这些模型。模型越大,与其训练相关的时间和费用就越多。其中,大型语言模型训练依赖于组织成集群的众多图形处理器,这些集群是互连的图形处理器阵列,可以执行训练具有数十亿参数的模型所需的大量计算。
为此,YaFSDP是FADP的升级版,优化了学习速度和性能,通过消除图形处理器通信效率低下的问题,确保了训练时仅需要关注必要的处理器内存,并使图形处理器交互不受干扰。这也使全球人工智能开发人员在训练模型时能够使用更少的计算能力和图形处理器资源。
Yandex公司高级开发人员、YaFSDP开发团队成员米哈伊尔·赫鲁晓夫(Mikhail Khruschev)表示,YaFSDP在13至700亿个参数的模型上显示了令人印象深刻的结果,在30至700亿个参数范围内的表现尤为强劲。他举例,在一个具有700亿参数的模型的预训练场景中,使用YaFSDP可以节省大约150个GPU的资源,这相当于每月节省大约360万至1080万元人民币(取决于GPU提供商或平台)。
模型 | 图形处理器数量 | 输入序列度 | 具有激活检查点的层 | 加速 |
Llama 2 7B | 64 | 2048 | 0 | 10.56% |
Llama 2 7B | 64 | 4096 | 0 | 2.54% |
Llama 2 13B | 128 | 2048 | 0 | 12.57% |
Llama 2 13B | 128 | 4096 | 0 | 3.45% |
Llama 2 34B | 256 | 2048 | 0 | 21.92% |
Llama 2 34B | 256 | 4096 | 5 | 8.12% |
Llama 2 70B | 256 | 2048 | 10 | 21.58% |
Llama 2 70B | 256 | 4096 | 50 | 6.44% |
Llama 3 8B | 64 | 2048 | 0 | 10.15% |
Llama 3 8B | 64 | 4096 | 0 | 7.98% |
Llama 3 70B | 256 | 2048 | 20 | 26.60% |
图:YaFSDP方法可以有效地用于基于转换器的多层文本生成模型(多层感知器),这些模型大多以类似 LLaMA 的模型为代表。在700亿参数模型的预训练场景中,使用YaFSDP可以节省约150个图形处理器的资源。(Yandex官方数据)
哈伊尔·赫鲁晓夫还提到,“目前,我们正在积极试验各种模型架构和参数大小,以扩展YaFSDP的多功能性。我们很高兴能与全球机器学习社区分享我们在大型语言模型方面的成果,为提高全球研究人员和开发人员的可访问性和效率做出贡献?!?/p>