- 课程回放
高效的大型语言模型长文本训练方法 LongLoRA|大型语言模型专场
智猩猩AI新青年讲座 2023/11/27 19:00:00
课程讲师
课程提纲
- 大语言模型长文本对话的难点
- 基于 LongLoRA 的长文本模型微调方法
- 长文本对话数据集 LongAlpaca-12k
- 开源的长文本大语言模型 LongAlpaca-70B
课程简介
目前,大多数大语言模型都仅支持短文本输入,而实际应用中,很多任务都需要长文本输入能力,如长文档的总结、提问等。传统方法为了进行长度拓展通常需要使用超过100块以上的A100 GPUs或TPUs,这样的计算资源消耗对大多数研究而言都是难以持续的。
为了解决这样的问题,麻省理工学院韩松团队和香港中文大学贾佳亚团队联合提出了基于 LoRA 的全新大模型微调方法:LongLoRA ,仅用一台8卡机器就能将 Llama2 模型从原本的4k tokens 处理长度拓展到 32k,甚至是 100k。
此外,为了提升模型的长文本对话能力,团队还构建了高质量长文本对话数据集 LongAlpaca-12k,并开源了首个 70B 参数量的长文本大语言模型 LongAlpaca-70B。该工作的代码、数据集、模型和 demos 已经全部开源在 https://github.com/dvlab-research/LongLoRA。
11月27日晚7点,「AI新青年讲座」第230讲邀请到 LongLoRA 一作、香港中文大学在读博士陈玉康参与,主讲《高效的大型语言模型长文本训练方法 LongLoRA》。
精彩问答
提问
提问
