绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
高效的大型语言模型长文本训练方法 LongLoRA|大型语言模型专场
智猩猩AI新青年讲座 2023/11/27 19:00:00
课程讲师

研究方向包括大语言模型、AutoML、3D 视觉等,曾在 CVPR、NeurIPS、T-PAMI 等顶级会议期刊上发表论文20篇,Google Scholar Citation 1300+。

陈玉康
香港中文大学 在读博士

研究方向包括大语言模型、AutoML、3D 视觉等,曾在 CVPR、NeurIPS、T-PAMI 等顶级会议期刊上发表论文20篇,Google Scholar Citation 1300+。

课程提纲
  • 大语言模型长文本对话的难点
  • 基于 LongLoRA 的长文本模型微调方法
  • 长文本对话数据集 LongAlpaca-12k
  • 开源的长文本大语言模型 LongAlpaca-70B
课程简介

目前,大多数大语言模型都仅支持短文本输入,而实际应用中,很多任务都需要长文本输入能力,如长文档的总结、提问等。传统方法为了进行长度拓展通常需要使用超过100块以上的A100 GPUs或TPUs,这样的计算资源消耗对大多数研究而言都是难以持续的。

为了解决这样的问题,麻省理工学院韩松团队和香港中文大学贾佳亚团队联合提出了基于 LoRA 的全新大模型微调方法:LongLoRA ,仅用一台8卡机器就能将 Llama2 模型从原本的4k tokens 处理长度拓展到 32k,甚至是 100k。

此外,为了提升模型的长文本对话能力,团队还构建了高质量长文本对话数据集 LongAlpaca-12k,并开源了首个 70B 参数量的长文本大语言模型 LongAlpaca-70B。该工作的代码、数据集、模型和 demos 已经全部开源在 https://github.com/dvlab-research/LongLoRA。

11月27日晚7点,「AI新青年讲座」第230讲邀请到 LongLoRA 一作、香港中文大学在读博士陈玉康参与,主讲《高效的大型语言模型长文本训练方法 LongLoRA》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...