绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
面向极限压缩的全二值化BiBERT
智猩猩AI新青年讲座 2022/04/14 19:00:00
课程讲师

师从刘祥龙教授;此前于北京航空航天大学获得学士学位;研究兴趣为神经网络量化压缩加速,主要致力于提高低比特网络在压缩时的精度,改善量化模型在真实应用场景下的资源消耗和计算延迟问题。在ICLR、CVPR等国际一流会议上发表学术论文6篇。

丁一芙
北京航空航天大学 在读博士

师从刘祥龙教授;此前于北京航空航天大学获得学士学位;研究兴趣为神经网络量化压缩加速,主要致力于提高低比特网络在压缩时的精度,改善量化模型在真实应用场景下的资源消耗和计算延迟问题。在ICLR、CVPR等国际一流会议上发表学术论文6篇。

课程提纲
  • BERT预训练语言模型的部署问题
  • BERT模型二值化的局限性
  • 针对BERT模型的全二值化方法BiBERT
课程简介

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结108讲,错过往期讲座直播的朋友,可以点击文章底部“阅读原文”进行回看!

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

近年来,如BERT等预训练语言模型在自然语言处理上表现出色,但其庞大的参数量阻碍了它在真实世界的硬件设备上的部署。研究者们提出了许多参数量化的方案,通过将浮点参数转换为定点数表示,能使模型变得紧凑和高效。

其中,二值化作为一种极限压缩手段,通过将模型的权重、激活均量化到1比特,在硬件推理时使用逐位运算操作,能显著加快模型部署到真实硬件时的推理速度。但量化模型尤其是二值化模型,往往面临严重的表达能力有限和优化困难的问题。

在丁一芙博士等人的研究中发现,在BERT模型的注意力机制中,直接对softmax的归一化注意力权重进行二值化会导致完全的信息丧失。此外,由于注意力权重是两个二值化的激活直接相乘而得,处于决策边缘的值很容易被二值化到相反的一侧,常规的直接优化注意力权重常常在训练过程中发生优化方向失配问题。

丁一芙等人提出了一个针对BERT模型的全二值化方法——BiBERT,针对上述两个问题针对性地提出了二值注意力机制(Bi-Attention)解决前向传播中二值化后的注意力机制的信息退化问题,和方向匹配蒸馏(DMD)缓解后向传播中蒸馏的优化方向不匹配问题。BiBERT超过了现有的BERT模型二值化方法,甚至优于采用更多比特的量化方案,在模型计算量和体积上,BiBERT理论上能够带来56.3倍和31.2倍的FLOPs和模型尺寸的减少。该工作被 ICLR 2022 接收。

4月14日,「AI新青年讲座」第109讲邀请到北京航空航天在读博士丁一芙参与,主讲《面向极限压缩的全二值化BiBERT》。

论文成果

BiBERT

《BiBERT: Accurate Fully Binarized BERT》

链接

https://openreview.net/forum?id=5xEgrl_5FAJ

丁一芙是北京航空航天大学在读博士;师从刘祥龙教授;此前于北京航空航天大学获得学士学位;研究兴趣为神经网络量化压缩加速,主要致力于提高低比特网络在压缩时的精度,改善量化模型在真实应用场景下的资源消耗和计算延迟问题;在ICLR、CVPR等国际一流会议上发表学术论文6篇。

针对「AI新青年讲座」,我们已经组建了专属学习群,也将邀请各位AI新青年加入。加入学习群,除了可以免费收看听课之外,还能认识讲者,与更多同行和同学一起学习,并进行深度讨论。

提问
目前还没有问题,可以点击右侧的“提问按钮”提问