绑定手机号
确认绑定
2017年Transformer结构的提出,使得深度学习模型参数突破了1亿。从一开始的LeNet、AlexNet、ResNet开始,模型参数一个比一个大,到了BERT网络模型的提出,使得参数量首次超过3亿规模。之后,GPT-3模型超过百亿,鹏程盘古实现千亿稠密的规模,Switch Transformer的问世还一举突破万亿规模。
从海量语料中训练得到的大模型,能学到强大的通用知识跟能力。大规模预训练可以有效地从大量标记和未标记的数据中捕获知识,通过将知识存储到大量的参数中并对特定任务进行微调,极大地扩展了模型的泛化能力,形成了“预训练大模型-下游任务微调”的新研发范式。
同时,随着模型参数量的爆发式增长,大模型对计算和内存资源也提出了更高的要求。从框架层面,目前部分深度学习框架,例如Pytorch和Tensorflow,没有办法满足超大规模模型训练的需求。
目前,国内越来越多的企业开始关注大模型,并且对大模型的开发、训练和推理进行了深度的跟进与探索。11月起,智东西公开课视觉AI教研组全新策划推出「大模型系列直播课」,并邀请到联汇科技首席科学家赵天成博士、一流科技 LiBai项目负责人程鹏、潞晨科技创始人尤洋教授,以及北京面壁智能联合创始人&CTO曾国洋四位主讲人参与主讲。