大规模预训练语言模型CPM-Live及应用

课程回放

大模型技术公开课 2022/12/22 19:00:00

课程讲师

曾国洋北京面壁智能联合创始人&CTO

OpenBMB开源社区主要发起者之一；清华大学计算机系毕业生；拥有丰富人工智能项目开发与管理经验，是悟道·文源中文预训练模型团队骨干成员，也是BMTrain、BMInf的主要作者之一；曾获2015年全国青少年信息学竞赛金牌（全国50人）、亚太地区信息学竞赛金牌、清华大学挑战杯一等奖、首都大学生挑战杯一等奖。

曾国洋

北京面壁智能联合创始人&CTO

课程提纲

大模型训练与应用的挑战
百亿大模型CPM-Live的训练加速
加速大模型开发的全流程工具包
在下游任务中的适配及应用

课程简介

12月22日晚7点，面壁智能联合创始人&CTO曾国洋将参与到「大模型系列直播课」第4讲中，讲解主题为《大规模预训练语言模型CPM-Live及应用》。

一些千亿乃至万亿级别的大模型更多聚焦于科研用途，并不太适合产业级别的规模化应用。而面壁智能特别针对产业化应用训练了 CPM-Live。

CPM-Live包含了一系列大模型。在今年九月，OpenBMB发布了CPM-Ant。它是一个开源的中文预训练语言模型，拥有 10B 参数，也是国内首个直播训练百亿大模型，训练耗时 68 天，花费 43 万人民币。基于 CPM-Ant，所有大模型开发者与爱好者都可以开发感兴趣的文本趣味应用，比如文本劲爆标题生成。同时，本次分享曾国洋还会带来CPM-Live二期大模型CPM-Bee的最新进展。

在计算层面，面壁智能更是推出了BMTrain、OpenPrompt、OpenDelta、BMInf、BMCook等大模型全流程加速工具包，涵盖了大模型高效训练、高效微调、高效推理与高效压缩。

在本次直播课中，面壁智能联合创始人&CTO曾国洋首先将分析大模型训练与应用的挑战，之后重点讲解面壁职能百亿大模型CPM-Live的训练加速及全流程工具包。最后，他也将分享CPM-Live在下游任务中的适配及应用。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...