绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
大模型系列直播课
已更新4期
合辑简介

2017年Transformer结构的提出,使得深度学习模型参数突破了1亿。从一开始的LeNet、AlexNet、ResNet开始,模型参数一个比一个大,到了BERT网络模型的提出,使得参数量首次超过3亿规模。之后,GPT-3模型超过百亿,鹏程盘古实现千亿稠密的规模,Switch Transformer的问世还一举突破万亿规模。

从海量语料中训练得到的大模型,能学到强大的通用知识跟能力。大规模预训练可以有效地从大量标记和未标记的数据中捕获知识,通过将知识存储到大量的参数中并对特定任务进行微调,极大地扩展了模型的泛化能力,形成了“预训练大模型-下游任务微调”的新研发范式。

同时,随着模型参数量的爆发式增长,大模型对计算和内存资源也提出了更高的要求。从框架层面,目前部分深度学习框架,例如Pytorch和Tensorflow,没有办法满足超大规模模型训练的需求。

目前,国内越来越多的企业开始关注大模型,并且对大模型的开发、训练和推理进行了深度的跟进与探索。11月起,智东西公开课视觉AI教研组全新策划推出「大模型系列直播课」,并邀请到联汇科技首席科学家赵天成博士、一流科技 LiBai项目负责人程鹏、潞晨科技创始人尤洋教授,以及北京面壁智能联合创始人&CTO曾国洋四位主讲人参与主讲。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...