- 课程回放

OpenBMB开源社区主要发起者之一;清华大学计算机系毕业生;拥有丰富人工智能项目开发与管理经验,是悟道·文源中文预训练模型团队骨干成员,也是BMTrain、BMInf的主要作者之一;曾获2015年全国青少年信息学竞赛金牌(全国50人)、亚太地区信息学竞赛金牌、清华大学挑战杯一等奖、首都大学生挑战杯一等奖。
- 大模型训练与应用的挑战
- 百亿大模型CPM-Live的训练加速
- 加速大模型开发的全流程工具包
- 在下游任务中的适配及应用
12月22日晚7点,面壁智能联合创始人&CTO曾国洋将参与到「大模型系列直播课」第4讲中,讲解主题为《大规模预训练语言模型CPM-Live及应用》。
一些千亿乃至万亿级别的大模型更多聚焦于科研用途,并不太适合产业级别的规模化应用。而面壁智能特别针对产业化应用训练了 CPM-Live。
CPM-Live包含了一系列大模型。在今年九月,OpenBMB发布了CPM-Ant。它是一个开源的中文预训练语言模型,拥有 10B 参数,也是国内首个直播训练百亿大模型,训练耗时 68 天,花费 43 万人民币。基于 CPM-Ant,所有大模型开发者与爱好者都可以开发感兴趣的文本趣味应用,比如文本劲爆标题生成。同时,本次分享曾国洋还会带来CPM-Live二期大模型CPM-Bee的最新进展。
在计算层面,面壁智能更是推出了BMTrain、OpenPrompt、OpenDelta、BMInf、BMCook等大模型全流程加速工具包, 涵盖了大模型高效训练、高效微调、高效推理与高效压缩。
在本次直播课中,面壁智能联合创始人&CTO曾国洋首先将分析大模型训练与应用的挑战,之后重点讲解面壁职能百亿大模型CPM-Live的训练加速及全流程工具包。最后,他也将分享CPM-Live在下游任务中的适配及应用。
