- 课程回放
面向大 Batch 预训练场景的大型语言模型训练内存节约优化器 CAME | 大型语言模型专场
智猩猩AI新青年讲座 2023/08/07 19:00:00
课程讲师
课程提纲
- 大型语言模型训练的内存消耗问题
- 常见的内存节约优化器 Adafactor
- 内存节约与性能高效并存的 CAME 优化器
- 在 BERT、GPT-2 和 T5 模型上的训练效果及对比
课程简介
随着大型语言模型参数量的不断增加,模型训练时优化器占用的内存也越来越大。像 Adam 和 LAMB 这种自适应梯度优化算法,虽然可以在大规模语言模型训练中表现出出色的训练性能,但传统优化算法对自适应的需求需要保存每个参数梯度的二阶矩估计,会导致额外的内存开销。
针对这个问题,研究者们提出了内存节约优化器,例如 Adafactor ,以大幅减少额外内存的使用,但通常会损失部分训练性能。来自新加坡国立大学、华为诺亚方舟实验室的研究者设计了一种置信度引导策略来解决现有内存节约优化器的训练不稳定性。基于这一策略,他们进一步提出了 CAME 优化器,旨在同时实现两个目标:传统自适应方法的快速收敛和内存节约方法的低内存占用。该成果已经获得了 ACL 的Outstanding Paper。
大量实验证明了 CAME 在 BERT、GPT-2 等语言模型训练任务中的训练稳定性和出色性能。在批量大小为 32k 的大批量 BERT 预训练场景下,CAME 比 Adam 优化器实现了更快的收敛速度和更高的收敛精度,这是对现有内存节约优化器的重要扩展。
8月7日19点,CAME 一作、新加坡国立大学HPC-AI实验室在读硕士生罗旸,将参与到「AI新青年讲座·大型语言模型专场」中,主讲《面向大 Batch 预训练场景的大型语言模型训练内存节约优化器 CAME》。
精彩问答
提问
提问
