在行人重识别上引入视觉-语言模型为什么会有效果的提升？是因为属性之间以及属性与人之间的关系在大语言模型上有先验知识么？

提问

问题出自：面向行人重识别的多属性和语言大模型研究

在行人重识别上引入视觉-语言模型为什么会有效果的提升？是因为属性之间以及属性与人之间的关系在大语言模型上有先验知识么？

2023-12-07 15:26:41

全部回答内容
登录之后查看

登录

一个很直观的感觉：之前很少有把大模型引入行人重识别中的研究，直觉上引入大模型后有性能的提升。因为之前的行人重识别一般使用ResNet进行训练，现在引入比它更大的模型，显然效果会有提升。大模型需要更多...

回答

相关问答

文本和图像是怎么映射到同一空间的，又是怎么建立它们之间的联系的？
2023-12-07 15:26:41

通过对比学习和匹配学习，拉近它们之间的联系。先把masked text，image，和masked prompts通过encoder投影到对应的空间，再通过对比学习拉近它们的距离，这样，一定程度上它们... 阅读全文〉
如何通过BLIP生成这种有细粒度信息的caption文本对齐图像？
2023-11-04 00:02:15

在MALS的构建中，先通过ImaginAIry生成相应的图像。方法一：ImaginAIry不仅集成了stable diffusion模型，也集成了BLIP模型，工具中自带有生成caption的接口。方... 阅读全文〉
请问有考虑/落地过text-based person retrieval的应用场景嘛～～如何考虑跟visual grounding任务的联系和差别呢？
2023-11-04 00:02:15

差别：最大的差别是行人检索面向人，visual grounding不止考虑人这一类数据的问题。... 阅读全文〉
在行人重识别上引入视觉-语言模型为什么会有效果的提升？是因为属性之间以及属性与人之间的关系在大语言模型上有先验知识么？
2023-11-04 00:02:15

一个很直观的感觉：之前很少有把大模型引入行人重识别中的研究，直觉上引入大模型后有性能的提升。因为之前的行人重识别一般使用ResNet进行训练，现在引入比它更大的模型，显然效果会有提升。大模型需要更多... 阅读全文〉
finetune阶段用的设备配置是什么呢？
2023-11-04 00:02:15

与预训练时设备相同，4张A100。因为应用对比学习，所以batch size会影响模型的性能。所以设备越好，batch size越大，可能结果会越好。... 阅读全文〉
文本和图像是怎么映射到同一空间的，又是怎么建立它们之间的联系的？
2023-11-04 00:02:15

通过对比学习和匹配学习，拉近它们之间的联系。先把masked text，image，和masked prompts通过encoder投影到对应的空间，再通过对比学习拉近它们的距离，这样，一定程度上它们... 阅读全文〉
大模型在行人重识别数据集上微调还有没有可能突破？
2023-11-04 00:02:15

行人重识别的数据集包括基于图片、基于文本以及统一的数据集。这有可能突破，毕竟大模型在行人重识别的研究不算特别多。例如在我们的研究方法中，把属性映射为属性提示，template的设计基于直觉，不一定是最... 阅读全文〉
行人重识别(reid)目前还有什么可以研究的有创新性的点吗？
2023-11-04 00:02:15

还有很多。“打个小广告”：郑哲东老师的知乎，分享了很多行人重识别的内容 https://www.zhihu.com/people/zhengzhedong有关于创新性具体的解答：包括模型架构、数据等... 阅读全文〉