高效的大型语言模型长文本训练方法 LongLoRA

课程回放

高效的大型语言模型长文本训练方法 LongLoRA｜大型语言模型专场

智猩猩AI新青年讲座 2023/11/27 19:00:00

课程讲师

陈玉康香港中文大学在读博士

研究方向包括大语言模型、AutoML、3D 视觉等，曾在 CVPR、NeurIPS、T-PAMI 等顶级会议期刊上发表论文20篇，Google Scholar Citation 1300+。

陈玉康

香港中文大学在读博士

研究方向包括大语言模型、AutoML、3D 视觉等，曾在 CVPR、NeurIPS、T-PAMI 等顶级会议期刊上发表论文20篇，Google Scholar Citation 1300+。

课程提纲

大语言模型长文本对话的难点
基于 LongLoRA 的长文本模型微调方法
长文本对话数据集 LongAlpaca-12k
开源的长文本大语言模型 LongAlpaca-70B

课程简介

目前，大多数大语言模型都仅支持短文本输入，而实际应用中，很多任务都需要长文本输入能力，如长文档的总结、提问等。传统方法为了进行长度拓展通常需要使用超过100块以上的A100 GPUs或TPUs，这样的计算资源消耗对大多数研究而言都是难以持续的。

为了解决这样的问题，麻省理工学院韩松团队和香港中文大学贾佳亚团队联合提出了基于 LoRA 的全新大模型微调方法：LongLoRA ，仅用一台8卡机器就能将 Llama2 模型从原本的4k tokens 处理长度拓展到 32k，甚至是 100k。

此外，为了提升模型的长文本对话能力，团队还构建了高质量长文本对话数据集 LongAlpaca-12k，并开源了首个 70B 参数量的长文本大语言模型 LongAlpaca-70B。该工作的代码、数据集、模型和 demos 已经全部开源在 https://github.com/dvlab-research/LongLoRA。

11月27日晚7点，「AI新青年讲座」第230讲邀请到 LongLoRA 一作、香港中文大学在读博士陈玉康参与，主讲《高效的大型语言模型长文本训练方法 LongLoRA》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...