绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
×
首页
直播
合辑
专场
智东西
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
登录
免费注册
关注我们
智东西
车东西
芯东西
智猩猩
智东西
车东西
芯东西
智猩猩
智猩猩
智猩猩官网
智猩猩小程序
线下大会
预告
公开课
讲座
专场
提问
|
回答
提问
分享到:
问题出自:
面向大 Batch 预训练场景的大型语言模型训练内存节约优化器 CAME | 大型语言模型专场
请问训练出来的BERT ,GPT-2模型从哪可以下载,以及实际推理的话需要多大的内存要求呢?
2023-12-07 15:26:40
全部回答内容
登录之后查看
登录
因为我,针对于 BERT 的话,我们所训练出来一个,因为我们实际上在做下游任务的时候使用的就是 BERT base 模型。如果我想用将公开我们的 a large checkpoint 的话,可能需要大...
回答
相关问答
optimizer state为什么需要存16bit和32bit的m和v,直接存32bit的是不是就够了?需要存32bit的gradient吗
2023-12-07 15:26:41
我刚刚所计算所展示出来的一个简单的一个内存现存占用的一个例子的话,是一个粗略的计算,具体说来说,你在混合精度运算中是否都需要保存 16 比特和 32 比特的 m 和 v 都是,嗯,可以针对性地进行一个...
阅读全文 〉
显存消耗这一块,你讲的那一页(18GB计算那一页),1.18GB是如何计算出来的,抱歉没太听懂。 2.实际在推理过程中比如KVcache、kernerfusion等技术,又会占用大概多大显存空间?
2023-12-07 15:26:41
就刚刚所说的,以一个 1.5 billion 的一个模型为例子,它的参数量是 1.5 billion,然后它每个参数因为是在混合精度的话,它是需要的是它参数保存的是FP16,也就是需要两个比特来保存,...
阅读全文 〉