- 课程回放
导师为 Chua Tat-seng 教授;研究方向为自然语言处理、多模态学习以及大模型;目前在自然语言处理、多模态学习以及机器学习等顶级会议上发表了多篇 CCF A 类论文,如NeurIPS、ACL、ACM MM、AAAI、IJCAI;其中 “NExT-GPT”获得了全球 AI 社区广泛的关注和认可,所开源的代码和模型获得了超过2千星标;曾获得新加坡立大学校长奖学金、新加坡立大学研究成就奖、国家奖学金(中国)、华为奖学金、优秀硕士毕业生等。
- 多模态大语言模型的发展
- 模态自由的全能型多模态大语言模型 NExT-GPT
- 基于模态切换的指令微调技术
- 复杂的跨模态理解和内容生成
近来,多模态大语言模型已经取得了令人振奋的成果。然而,现有多模态大语言模型仍主要集中在对输入端进行多模态理解,而输出端仍受限于文本内容。相较之下,人类在沟通时具备理解和感知各种模态的能力,并能够以灵活的方式输出各类模态的回复。因此,构建能够接受和传递任何模态内容的系统,是实现类人水平的人工智能中至关重要的一步。
为了实现这一目标,来自新加坡国立大学 NExT++ 实验室的研究者提出了一种端到端的通用的任意到任意多模态大语言模型系统,即 NExT-GPT。通过引入一个轻量级对齐网络,将一种大语言模型与多模态适配器和下游扩散解码器连接起来,使 NExT-GPT 能够感知文本、图像、视频和音频,并灵活地生成任意模态的输出。
此外,研究者还提出了基于模态切换的指令微调(Modality-switching Instruction-tuning,MosIT),并构建了一个基于 MosIT 的高质量数据集。最终,实现了复杂的跨模态语义理解和内容生成的能力。
12月14日晚19点,「AI新青年讲座」第231讲邀请到 NExT-GPT 一作、新加坡国立大学 NExT++ 实验室在读博士吴胜琼参与,主讲《NExT-GPT:端到端通用多模态大语言模型》。