基于大型语言模型对话指导视觉交互 GPT4Tools

课程回放

大模型技术公开课 2023/06/15 18:00:00

课程讲师

宋林腾讯 AI Lab 高级研究员

2022年7月获得西安交通大学人工智能学院博士学位，师从孙剑、孙宏滨；研究兴趣主要集中在计算机视觉、机器学习和集成电路；曾在 ICLR、CVPR、NeurIPS 上发表多篇论文。

宋林

腾讯 AI Lab 高级研究员

课程提纲

大语言模型使用工具能力的发展
基于 GPT4Tools 使用开源语言模型能力
在线 Demo 展示和架构分析
定量实验分析与潜在应用

课程简介

6月15日晚6点，腾讯 AI Lab 高级研究员宋林将带来「大型语言模型技术公开课」第四讲的直播，主讲《基于大型语言模型对话指导视觉交互 GPT4Tools》。

GPT4Tools 是一个集中式的控制系统，可以控制使用多个基础视觉模型。它基于 LLaMA 和自己构建的 71k instruction 数据。通过分析语言内容，GPT4Tools 能够自动决定、控制和利用不同的基础视觉模型，允许用户在对话中与图像交互。该方法是通过 self-instruct 和 LoRA 来微调 LLM 使之能够使用简单的工具。

GTP4Tools 主要是通过 self-instruct 和 LoRA 来微调 LLM 使之能够使用简单的工具，其中主要包含三部分：用于指令的 LLM、用于自适应的 LoRA 和用于提供功能的 Visual Agent。它是一个灵活且可扩展的系统，可以轻松扩展以支持更多工具和功能。例如，用户可以用自己的模型替换现有的 LLM 或工具，或者向系统添加新工具。用户唯一需要做的就是使用提供的指令微调 LoRA，并教会 LLM 使用提供的工具。

在这一讲，宋林首先将介绍大语言模型使用工具能力的发展，之后重点分析 GPT4Tools 的结构，并讲解其使用开源语言模型的能力，同时也会进行 Demo 展示。最后，他也会探讨 GPT4Tools 的潜在应用。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...