面向大 Batch 预训练场景的大型语言模型训练内存节约优化器 CAME

课程回放

面向大 Batch 预训练场景的大型语言模型训练内存节约优化器 CAME | 大型语言模型专场

智猩猩AI新青年讲座 2023/08/07 19:00:00

课程讲师

罗旸新加坡国立大学 HPC-AI实验室在读硕士生

导师为尤洋教授；研究兴趣包含机器学习和高性能计算，当前研究重点为大模型高效训练以及训练稳定性；硕士期间以一作身份获得了ACL2023会议的杰出论文奖。

罗旸

新加坡国立大学 HPC-AI实验室在读硕士生

课程提纲

大型语言模型训练的内存消耗问题
常见的内存节约优化器 Adafactor
内存节约与性能高效并存的 CAME 优化器
在 BERT、GPT-2 和 T5 模型上的训练效果及对比

课程简介

随着大型语言模型参数量的不断增加，模型训练时优化器占用的内存也越来越大。像 Adam 和 LAMB 这种自适应梯度优化算法，虽然可以在大规模语言模型训练中表现出出色的训练性能，但传统优化算法对自适应的需求需要保存每个参数梯度的二阶矩估计，会导致额外的内存开销。

针对这个问题，研究者们提出了内存节约优化器，例如 Adafactor ，以大幅减少额外内存的使用，但通常会损失部分训练性能。来自新加坡国立大学、华为诺亚方舟实验室的研究者设计了一种置信度引导策略来解决现有内存节约优化器的训练不稳定性。基于这一策略，他们进一步提出了 CAME 优化器，旨在同时实现两个目标：传统自适应方法的快速收敛和内存节约方法的低内存占用。该成果已经获得了 ACL 的Outstanding Paper。

大量实验证明了 CAME 在 BERT、GPT-2 等语言模型训练任务中的训练稳定性和出色性能。在批量大小为 32k 的大批量 BERT 预训练场景下，CAME 比 Adam 优化器实现了更快的收敛速度和更高的收敛精度，这是对现有内存节约优化器的重要扩展。

8月7日19点，CAME 一作、新加坡国立大学HPC-AI实验室在读硕士生罗旸，将参与到「AI新青年讲座·大型语言模型专场」中，主讲《面向大 Batch 预训练场景的大型语言模型训练内存节约优化器 CAME》。

精彩问答

提问

显存消耗这一块，你讲的那一页（18GB计算那一页），1.18GB是如何计算出来的，抱歉没太听懂。 2.实际在推理过程中比如KVcache、kernerfusion等技术，又会占用大概多大显存空间？
2023-12-07 15:26:41

就刚刚所说的，以一个 1.5 billion 的一个模型为例子，它的参数量是 1.5 billion，然后它每个参数因为是在混合精度的话，它是需要的是它参数保存的是FP16，也就是需要两个比特来保存，... 阅读全文〉
optimizer state为什么需要存16bit和32bit的m和v，直接存32bit的是不是就够了？需要存32bit的gradient吗
2023-12-07 15:26:41

我刚刚所计算所展示出来的一个简单的一个内存现存占用的一个例子的话，是一个粗略的计算，具体说来说，你在混合精度运算中是否都需要保存 16 比特和 32 比特的 m 和 v 都是，嗯，可以针对性地进行一个... 阅读全文〉
请问训练出来的BERT ，GPT-2模型从哪可以下载，以及实际推理的话需要多大的内存要求呢？
2023-12-07 15:26:40

因为我，针对于 BERT 的话，我们所训练出来一个，因为我们实际上在做下游任务的时候使用的就是 BERT base 模型。如果我想用将公开我们的 a large checkpoint 的话，可能需要大... 阅读全文〉