- 开课提醒

加州大学伯克利分校计算机科学博士三年级学生,师从Yi Ma教授和Jitendra Malik教授,研究方向聚焦于视觉和语言的表征学习和模型架构。本科毕业于康奈尔大学。吴梓阳曾在微软担任实习研究员。他在ICML、NeurIPS、ICLR等国际顶级会议上发表多篇论文,代表性成果包括CRATE、ToST、SimDINO等,致力于推动新的表征学习范式和基于信息论原理的模型架构。
- 1. 背景和动机
- 2. 变分率缩减目标函数
- 3. ToST架构的推导
- 4. ToST的实验结果与实际表现
近年来,Transformer架构凭借注意力机制在计算机视觉、自然语言处理以及长序列任务等多个领域取得了非凡的成就。然而,自注意力机制的计算复杂度随着输入Token数量的增加呈二次增长,导致资源消耗巨大,难以扩展到更长的序列或更大的模型。
为此,来自加州大学伯克利分校、宾夕法尼亚大学、密歇根大学等高校的研究者们提出了一种新型注意力架构ToST(Token Statistics Transformer)。通过对序列特征的统计建模,ToST能够提高序列处理任务的效率。
该成果通过“白盒”架构设计方法,推导出了最大编码率缩减目标(Maximal Coding Rate Reduction, MCR²)的一种新的变分形式。通过对该变分目标进行梯度下降,进一步推导出了一种全新的注意力模块TSSA(Token Statistics Self-Attention )。与传统基于token间成对相似性的注意力机制不同,TSSA 在计算和内存复杂度上均为线性级别,显著降低了资源消耗。
使用TSSA模块来替代标准Transformer中的自注意力机制,构建了一个全新的模型架构ToST。该架构首先对输入序列中的每个token提取其统计特征,随后利用变分编码率缩减(Variational Rate Reduction, VRR) 对特征进行压缩,以减少信息冗余。通过一系列的优化步骤,将注意力架构的计算复杂度从 O (n²) 降低为 O (n)。
在自然言语处理(NLP)、计算机视觉(CV)等多个领域的任务进行实验,包括文本分类、机器翻译、图像识别等。结果表明,使用ToST能在多个任务上达到与传统Transformer相当甚至更优的性能,同时具备更高的计算效率和更好的可解释性。
6月12日早上10点,智猩猩邀请到论文一作、加州大学伯克利分校博士生 吴梓阳参与「智猩猩AI新青年讲座」第266讲,以《 新型注意力机制ToST:以线性时间复杂度架构革新Transformer》为主题带来直播讲解。
