绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
新型注意力机制ToST:以线性时间复杂度架构革新Transformer
智猩猩AI新青年讲座 2025/06/13 10:00:00
课程讲师

加州大学伯克利分校计算机科学博士三年级学生,师从Yi Ma教授和Jitendra Malik教授,研究方向聚焦于视觉和语言的表征学习和模型架构。本科毕业于康奈尔大学。吴梓阳曾在微软担任实习研究员。他在ICML、NeurIPS、ICLR等国际顶级会议上发表多篇论文,代表性成果包括CRATE、ToST、SimDINO等,致力于推动新的表征学习范式和基于信息论原理的模型架构。

吴梓阳
加州大学伯克利分校 博士生

加州大学伯克利分校计算机科学博士三年级学生,师从Yi Ma教授和Jitendra Malik教授,研究方向聚焦于视觉和语言的表征学习和模型架构。本科毕业于康奈尔大学。吴梓阳曾在微软担任实习研究员。他在ICML、NeurIPS、ICLR等国际顶级会议上发表多篇论文,代表性成果包括CRATE、ToST、SimDINO等,致力于推动新的表征学习范式和基于信息论原理的模型架构。

课程提纲
  • 1. 背景和动机
  • 2. 变分率缩减目标函数
  • 3. ToST架构的推导
  • 4. ToST的实验结果与实际表现
课程简介

近年来,Transformer架构凭借注意力机制在计算机视觉、自然语言处理以及长序列任务等多个领域取得了非凡的成就。然而,自注意力机制的计算复杂度随着输入Token数量的增加呈二次增长,导致资源消耗巨大,难以扩展到更长的序列或更大的模型。

为此,来自加州大学伯克利分校、宾夕法尼亚大学、密歇根大学等高校的研究者们提出了一种新型注意力架构ToST(Token Statistics Transformer)。通过对序列特征的统计建模,ToST能够提高序列处理任务的效率。

该成果通过“白盒”架构设计方法,推导出了最大编码率缩减目标(Maximal Coding Rate Reduction, MCR²)的一种新的变分形式。通过对该变分目标进行梯度下降,进一步推导出了一种全新的注意力模块TSSA(Token Statistics Self-Attention )。与传统基于token间成对相似性的注意力机制不同,TSSA 在计算和内存复杂度上均为线性级别,显著降低了资源消耗。

使用TSSA模块来替代标准Transformer中的自注意力机制,构建了一个全新的模型架构ToST。该架构首先对输入序列中的每个token提取其统计特征,随后利用变分编码率缩减(Variational Rate Reduction, VRR) 对特征进行压缩,以减少信息冗余。通过一系列的优化步骤,将注意力架构的计算复杂度从 O (n²) 降低为 O (n)。

在自然言语处理(NLP)、计算机视觉(CV)等多个领域的任务进行实验,包括文本分类、机器翻译、图像识别等。结果表明,使用ToST能在多个任务上达到与传统Transformer相当甚至更优的性能,同时具备更高的计算效率和更好的可解释性。

6月12日早上10点,智猩猩邀请到论文一作、加州大学伯克利分校博士生 吴梓阳参与「智猩猩AI新青年讲座」第266讲,以《 新型注意力机制ToST:以线性时间复杂度架构革新Transformer》为主题带来直播讲解。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...