- 课程回放
面向行人重识别的多属性和语言大模型研究
智猩猩AI新青年讲座 2023/10/19 19:00:00
课程讲师
课程提纲
- 大模型时代的行人检索任务
- 基于文本的行人检索数据集 MALS
- 联合属性提示学习和文本匹配的预训练框架 APTM
- 在真实世界基准上的有效性验证及 SOTA 检索性能
课程简介
作为一种跨模态学习任务,基于文本的行人检索很少从大规模的跨模态预训练中获益。一个原因是由于隐私问题所造成的数据缺乏,通常无法收集足够的数据来满足当前深度学习大模型对数据的需求量。二一个是缺乏高质量的注释。语言注释过程很繁琐,并且不可避免地引入注释者的偏见。因此,文本描述通常非常简短,无法全面描述目标人物的特征。
针对这个问题,在 ACM MM 2023 上,来自西安交通大学、新加坡国立大学的研究者提出了一个用于基于文本的行人检索的大规模多属性和语言检索数据集(MALS,Multi-Attribute and Language Search dataset),并探索在属性识别和图像-文本匹配任务上同时进行预训练的可行性。
考虑到隐私问题和注释成本,研究者利用现成的扩散模型生成数据集。而为了验证从生成的数据中学习的可行性,他们还提出了一个新的联合属性提示学习和文本匹配学习框架:APTM。
APTM 在包括 CUHK-PEDES、ICFG-PEDES 和 RSTPReid 在内的三个具有挑战性的真实基准数据集上实现了有竞争力的召回率,并获得了 SOTA 的检索性能,同时也验证了在 MALS 上进行预训练的有效性。
10月19日晚7点,「AI新青年讲座」第228讲邀请到西安交通大学计算机科学与技术专业在读博士杨蜀钰参与,主讲《面向行人重识别的多属性和语言大模型研究》。
精彩问答
提问
提问