智猩猩

Data Agents 竞赛来啦！中国高校首次完全主导 KDD Cup 重磅赛道

分类：社区来稿

2026-04-02 17:41:00

主办方投稿

智猩猩AI整理

在国际数据挖掘领域，KDD Cup 无疑是衡量前沿技术与创新能力的重要标杆。长期以来，中国学者和团队在 KDD Cup 舞台上屡创佳绩，但独立承办完整赛道，这还是第一次。

2026年，这一历史性时刻终于到来！全球数据挖掘顶级赛事 KDD Cup 2026 正式宣布，其核心赛道 “Data Agents for Complex Data Analysis” 将由香港科技大学（广州）数据智能与分析实验室联合清华大学数据库组共同承办。这不仅是对中国高校科研实力的充分肯定，更是中国数据智能力量在全球舞台上从“重要参与者”向“规则定义者”转变的里程碑。

大赛官网（数据集下载 & 赛事详情）：https://dataagent.top/

01 痛点剖析：为什么我们需要“数据智能体”？

你是否曾为复杂的数据分析任务而头疼？面对海量异构数据源（数据库、文档、图表），传统的数据分析流程往往需要大量人工干预：从数据清洗、特征工程、模型选择，到结果解读，每一步都离不开人类专家的经验与决策。这种高度依赖人工的模式，在数据规模和复杂性日益增长的今天，正成为制约数据分析效率和可扩展性的瓶颈。

我们面临的挑战是：如何让 AI 真正“理解”数据，并像人类专家一样，自主地完成从问题分解到结果输出的整个分析链路？

KDD Cup 2026 Data Agents 赛道正是为了解决这一核心痛点而生。它旨在推动构建下一代数据智能体（Data Agents）：一种能够深度整合知识理解、智能推理和自主规划能力的革命性架构，从而实现真正意义上的自主数据分析。

02 揭秘 Data Agents：你的 AI 能独立思考吗？

一个真正强大的 Data Agent，绝不仅仅是执行预设指令的工具，它更像是一个拥有“大脑”的数据分析师。它需要具备以下核心能力，才能在复杂多变的数据世界中游刃有余：

智能分解与规划：当面对一个高层级的分析问题时，Data Agent 能够像人类专家一样，将其自主拆解为一系列逻辑清晰、可执行的精细化子任务，并制定出完成这些任务的步骤和策略。

灵活工具调用：在每个推理环节，它能根据当前任务需求，精准选择并调用最合适的工具，无论是执行 SQL 查询、运行 Python 脚本进行数据处理，还是调用外部 API 获取信息，都能信手拈来。

异构数据融合推理：真实世界的数据往往分散在不同的“角落”：结构化的数据库表格、半结构化的 JSON 配置文件、非结构化的 PDF 文档、甚至图像中的图表信息。Data Agent 必须具备在这些异构数据源之间进行无缝、高效的交叉推理能力。

结果综合与决策：完成一系列子任务后，Data Agent 需要将多步骤的中间结果进行智能综合、校验，并最终给出准确、可信且具有解释性的答案。

03 实战演练：DataAgent-Bench：企业级数据分析的缩影

为了真实模拟企业级数据分析的复杂场景，本次大赛特别设计了核心基准测试平台 DataAgent-Bench。它并非简单的问答系统，而是要求参赛者的 Data Agent 能够处理一系列“非线性”的推理任务。

想象一下这样的场景：

任务背景：你需要对公司 2025 年 Q3 季度的业绩进行复盘，找出哪些地区的实际销售额超出了预算目标 20%，并深入分析其背后的驱动因素。

你的 Data Agent 将面对的“数据迷宫”：

sales_transactions.sqlite：包含数百万条原始交易记录的数据库，但缺乏业务逻辑。
region_mapping.json：定义地区代码与业务区域名称映射关系的配置文件。
Company_Ops_Manual.md：一份非结构化的标准运营手册，其中隐藏着“预算目标”的计算公式和产品分类标准。
Market_Report_Q3.md：一份市场分析报告，包含了对各地区宏观政策变动的定性描述，是分析业绩增长驱动因素的关键线索。

你的 Data Agent 需要完成的“侦探式”推理：

知识对齐与映射：首先，它需要从 Company_Ops_Manual.md 中“学习”核算公式，并结合 region_mapping.json 将数据库中的抽象 ID 映射为真实的业务区域。
多源数据整合：接着，基于提取的公式和映射逻辑，对 sales_transactions.sqlite 执行复杂的跨表查询和计算，筛选出符合条件的地区名单。
深度归因分析：最后，结合 Market_Report_Q3.md 中的定性描述，对筛选出的地区进行业绩增长原因的自动化归因，最终输出分析结果。

DataAgent-Bench 精妙地捕捉了真实世界数据分析中常见的“顺序链”、“分支与合并”以及“迭代循环”等多种非线性推理模式，并根据“模态数量”与“干扰项规模”将难度细分为 Easy、Medium、Hard、Extreme 四个级别，旨在全面评估 Data Agent 的能力边界。

重磅福利：Phase 1 Demo 数据集及官方 Starter Kit 已发布！包含 Easy、Medium、Hard 和 Extreme 四个难度级别，并配套 GitHub 基准代码与工具链。立即前往官网 https://dataagent.top/ 下载，抢先体验挑战！

04 赛制升级：双阶段、双赛道，通往荣耀之路

KDD Cup 2026 采用严谨的两阶段赛制，确保赛事的公平性与深度：

Phase 1（单一主赛道）：所有注册队伍将在统一的公共排行榜上竞技，通过自动化评估进行排名，考验基础能力与算法效率。
Phase 2（双子赛道）：成功晋级的队伍将进入第二阶段，并可根据团队特长自由选择：
Leaderboard Subtrack（排行榜赛道）：继续追求极致准确率，挑战包含数据图像、数据视频等更具挑战性的新模态数据。
Creative Subtrack（创意赛道）：更注重系统设计与用户体验，鼓励构建成熟、交互友好且决策透明的 Data Agent 系统，展示创新应用潜力。

05 丰厚奖励与职业加速：你的未来，由你定义！

本次大赛设立总额 120,000 元人民币的丰厚奖金池，等待全球顶尖 Data Agent 团队前来瓜分！除了诱人的现金奖励，我们还为优胜者准备了多重职业与学术发展机会：

大厂 Offer 直通车：表现优异的团队将获得知名企业 Offer 的宝贵机会，为职业生涯按下加速键。
KDD Cup Workshop 专属演讲机会：在 KDD 2026 这一国际顶级学术会议的舞台上，向全球同行展示你的创新成果，获得广泛关注。
官方获奖证书：为你的学术履历增添浓墨重彩的一笔。

06 权威阵容：群星璀璨，为赛事保驾护航

本次大赛的组织委员会汇聚了数据智能领域的顶尖学者，他们不仅拥有深厚的学术背景，更具备丰富的赛事组织经验，确保大赛的专业性与公正性。

General Chairs 阵容：

李国良，ACM Fellow，IEEE Fellow，清华大学计算机系教授、副主任，国家杰出青年科学基金获得者（并延续资助），国家重点研发计划项目首席科学家，数据智能北京市重点实验室主任，计算机学会数据库专委会副主任。
骆昱宇，香港科技大学（广州）助理教授，研究兴趣为Data Agents、LLM Agents。在 SIGMOD、VLDB、KDD、ICML 等顶会发表论文40 余篇。曾获世界人工智能大会云帆奖、福布斯中国U30、华为火花奖。领导 OpenManus 和 DeepEye 开源智能体项目（GitHub 5.5万+ Stars），获日内瓦发明展银奖。
汤南，香港科技大学（广州）副教授，ACM Distinguished Member，国家高层次人才计划入选者。研究聚焦 AI4DB 与数据中心化 AI，曾获 VLDB 最佳论文奖及 SIGMOD 2024 Research Highlight Award。
李伯岩，香港科技大学（广州）博士生。研究方向聚焦于Text-to-SQL 和 Data Agents，在SIGMOD、KDD、VLDB、ICML等CCF-A类会议发表论文10余篇，领导DeepEye数据智能体开源项目，获日内瓦发明展银奖。

此外，组委会还邀请了多位深耕数据智能体、文档智能、信息提取、数据可视化、数据库系统及以数据为中心的 AI 等前沿领域的青年学者担任 Chair，共同为大赛的顺利进行提供坚实保障。

07 关键时间节点：不容错过的未来之约 (AoE 时区)

3月22日 - 4月23日：全球队伍注册阶段（机会稍纵即逝，立即组队，抢占先机！）
4月24日 - 5月23日：Phase 1 激烈角逐，初露锋芒
5月28日 - 6月30日：Phase 2 巅峰对决，决战紫禁之巅
8月9日：KDD 2026 现场公布最终获奖名单，荣耀加冕

大赛官网（数据集下载 & 赛事详情）：复制链接 https://dataagent.top/ 到浏览器访问。