请问训练出来的BERT ，GPT-2模型从哪可以下载，以及实际推理的话需要多大的内存要求呢？

提问

相关问答

optimizer state为什么需要存16bit和32bit的m和v，直接存32bit的是不是就够了？需要存32bit的gradient吗
2023-12-07 15:26:41

我刚刚所计算所展示出来的一个简单的一个内存现存占用的一个例子的话，是一个粗略的计算，具体说来说，你在混合精度运算中是否都需要保存 16 比特和 32 比特的 m 和 v 都是，嗯，可以针对性地进行一个... 阅读全文〉
显存消耗这一块，你讲的那一页（18GB计算那一页），1.18GB是如何计算出来的，抱歉没太听懂。 2.实际在推理过程中比如KVcache、kernerfusion等技术，又会占用大概多大显存空间？
2023-12-07 15:26:41

就刚刚所说的，以一个 1.5 billion 的一个模型为例子，它的参数量是 1.5 billion，然后它每个参数因为是在混合精度的话，它是需要的是它参数保存的是FP16，也就是需要两个比特来保存，... 阅读全文〉