大规模视觉基础模型在线研讨会

课程回放

大规模视觉基础模型在线研讨会

线上闭门会 2023/08/30 19:00:00

主讲人

李翔南开大学副教授

李翔博士，南开大学计算机学院副教授，入选南开大学百青计划、博士后创新人才支持计划，主持国家自然科学青年基金，获江苏省人工智能学会优秀博士论文奖，CCF优秀博士论文提名奖；在CCF A 类会议CVPR、NeurIPS及权威期刊TPAMI等上发表40余篇学术论文，包括第一作者和通讯作者20余篇；谷歌学术总引用达7400余次，一作代表工作SKNet（CVPR19）引用1700余次；所提出的目标检测算法GFL系列（NeurIPS20, CVPR21, TPAMI22）累积获得600余次谷歌学术引用，收录于权威目标检测工具箱mmdetection，并成为主流轻量目标检测器YOLO系列中的标准配置；合作提出的PVT模型入选ICCV21 Top-10最具影响力工作（排名第二，第一名为马尔奖Swin Transformer）。长期担任国际人工智能顶级会议AAAI、CVPR及权威期刊TPAMI、TIP、TMM审稿人，担任PRCV23领域主席，Image and Vision Computing期刊副主编；曾带领团队夺得了2015 年阿里巴巴天池首届大数据竞赛冠军（30万奖金，1/7186队伍）、2016 年滴滴研究院首届大数据竞赛冠军（10万美元奖金，1/7664）、2022年计图Jittor人工智能挑战赛语义风景图像生成赛道冠军（5万奖金，1/154）。其中，阿里巴巴天池首届大数据竞赛中的相关算法已被应用于阿里移动电商平台中，央视科教频道《走进科学》栏目拍摄制作的八集科学纪录片《0 和1：裂变时刻》中的第四集《新引擎》专集报道了这一成果。

李翔

南开大学副教授

王文海香港中文大学博士后

南京大学博士，曾任上海人工智能实验室青年科学家，研究方向为视觉基础模型研究，上海人工智能实验室“书生”系列视觉基础模型核心开发者；主要成果发表在顶级期刊和会议：TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共31篇论文，其中17篇为一作/共一/通信；研究成果获得了总共超9800次引用，单篇最高引用超2100次；其中1项成果分别入选CVPR 2023最佳论文，CVMJ 2022最佳论文候选，一次入选ESI高被引论文（前1%）和热点论文（前0.1%），4项分别入选CVPR 2020，ICCV 2021，NeurIPS 2021，ECCV 2022十大最具影响力论文，一次入选2022年百篇最高引AI论文；担任IJCAI 2021的高级程序委员会委员，以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个国际会议/期刊的程序委员会委员/审稿人。

王文海

香港中文大学博士后

宋恺涛微软亚洲研究院研究员

于2015年和2021年分别获得南京理工大学计算机科学与技术学士学位和博士学位；目前的研究兴趣包括自然语言处理、多模态分析、深度学习、语音识别和机器学习；代表工作有HuggingGPT、MASS和MPNet，并在IEEE TIP、ICML、NeurIPS、ACL、KDD、ICCV、AAAI、IJCAI、InterSpeech、ICASSP等顶级国际期刊和会议上发表了30多篇学术论文；曾担任ICML、NeurIPS、ICLR、ACL、EMNLP等会议的程序委员会成员。

宋恺涛

微软亚洲研究院研究员

杨凌风南京理工大学在读博士

研究兴趣包括深度学习模型、细粒度视觉感知与多模态物体感知；曾一作发表CVPR（oral）和NeurIPS（spotlight），并且获得第二届计图人工智能挑战赛冠军与首届“征图杯”校园机器视觉人工智能大赛亚军。

杨凌风

南京理工大学在读博士

完整议程

“大规模视觉基础模型 + LLM”在开放世界任务中的应用初探
基于 ChatGPT + Hugging Face 解决复杂人工智能任务
大型视觉语言模型的细粒度视觉提示及局部定位识别

研讨会简介

随着数据和模型规模的大幅扩展，大型语言模型（LLMs）的基础模型已经取得了显著的成功。很多模型通过零/少样本学习，而无需大量的任务特定数据或模型参数更新，就能拥有先进的能力，包括语言理解、生成、推理和与代码相关的任务。

视觉任务不同于语言任务，很难找到一种封闭定义去囊括所有的任务形式。那么，视觉任务的终局是什么？有没有可能做到像现在语言任务的大一统？同时，在这个大模型、多模态等前沿领域快速更新迭代的时代，研究者们又该如何在紧跟日新月异的技术发展潮流的同时，做出有自己特色的研究呢？

8月30日晚7点，智东西公开课推出「大规模视觉基础模型在线研讨会」。研讨会由南开大学副教授李翔博士参与出品。李翔博士入选了南开大学百青计划、博士后创新人才支持计划，在 CVPR、NeurIPS 及权威期刊 TPAMI 等上发表40余篇学术论文，谷歌学术总引用达7400余次，合作提出的 PVT 模型入选 ICCV21 Top-10 最具影响力工作（排名第二，第一名为马尔奖Swin Transformer）。

本次研讨会，香港中文大学博士后王文海、微软亚洲研究院研究员宋恺涛和南京理工大学在读博士杨凌风三位青年学者将参与主讲。他们将分别围绕主题《“大规模视觉基础模型 + LLM”在开放世界任务中的应用初探》、《基于 ChatGPT + Hugging Face 解决复杂人工智能任务》和《大型视觉语言模型的细粒度视觉提示及局部定位识别》进行深度讲解。

香港中文大学博士后王文海：“大规模视觉基础模型 + LLM”在开放世界任务中的应用初探

近年来，以ChatGPT为代表的大规模语言模型已在自然语言处理开放世界任务中获得了极大的成功。然而，由于其受到模态的限制，这些模型在计算机视觉和视觉语言任务中的应用仍然受到限制。

在本次分享，我们将从大规模视觉基础模型开始，探讨视觉基础模型与大规模语言模型在以视觉为中心的开放世界任务中的应用。包括：（1）大规模视觉基础模型的构建和训练；（2）视觉基础模型和大规模语言模型在开放世界视觉交互系统中协同应用；（3）更灵活的大规模语言模型在开放世界视觉和视觉语言任务中的使用方法。

微软亚洲研究院研究员宋恺涛：基于 ChatGPT + Hugging Face 解决复杂人工智能任务

利用不同领域和模态的复杂人工智能任务是迈向先进人工智能的关键一步。虽然针对不同领域和模态存在大量的人工智能模型，但它们无法处理复杂的人工智能任务。考虑到大型语言模型（LLMs）在语言理解、生成、交互和推理方面表现出色的能力，我们认为 LLMs 可以充当控制器，管理现有的人工智能模型来解决复杂的人工智能任务，而语言可以作为通用接口来实现这一点。基于这一理念，我们提出了一个框架，利用 LLMs（例如ChatGPT）来连接机器学习社区中的各种人工智能模型（例如Hugging Face）来解决人工智能任务。

具体而言，我们使用 ChatGPT 在接收用户请求时进行任务规划，根据 Hugging Face 中可用的模型功能描述来选择模型，使用所选的人工智能模型执行每个子任务，并根据执行结果总结回应。通过充分利用 ChatGPT 的强大语言能力和 Hugging Face 中丰富的人工智能模型，我们的系统（即HuggingGPT）能够涵盖许多不同模态和领域的复杂人工智能任务，并在语言、视觉、语音和其他具有挑战性的任务方面取得令人印象深刻的结果，为迈向人工通用智能开辟了新的道路。

南京理工大学在读博士杨凌风：大型视觉语言模型的细粒度视觉提示及局部定位识别

大型视觉语言模型在多个图像层级的任务上取得优秀表现，但是其潜在的知识难以被应用于局部定位识别任务。现有的零样本迁移方法使用了视觉提示的策略，但是其提示设计存在不准确、引入噪声等问题。

我们通过流程图以及实例可视化展示了我们的解决方法，并在展示了在多个数据集上的实验结果。最后，我们对各个方法进行了有效性分析，并进行了视觉提示的结果可视化。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...