主办方投稿
智猩猩AI整理
在国际数据挖掘领域,KDD Cup 无疑是衡量前沿技术与创新能力的重要标杆。长期以来,中国学者和团队在 KDD Cup 舞台上屡创佳绩,但独立承办完整赛道,这还是第一次。
2026年,这一历史性时刻终于到来!全球数据挖掘顶级赛事 KDD Cup 2026 正式宣布,其核心赛道 “Data Agents for Complex Data Analysis” 将由香港科技大学(广州)数据智能与分析实验室联合清华大学数据库组共同承办。这不仅是对中国高校科研实力的充分肯定,更是中国数据智能力量在全球舞台上从“重要参与者”向“规则定义者”转变的里程碑。

大赛官网(数据集下载 & 赛事详情):https://dataagent.top/
01 痛点剖析:为什么我们需要“数据智能体”?
你是否曾为复杂的数据分析任务而头疼?面对海量异构数据源(数据库、文档、图表),传统的数据分析流程往往需要大量人工干预:从数据清洗、特征工程、模型选择,到结果解读,每一步都离不开人类专家的经验与决策。这种高度依赖人工的模式,在数据规模和复杂性日益增长的今天,正成为制约数据分析效率和可扩展性的瓶颈。
我们面临的挑战是:如何让 AI 真正“理解”数据,并像人类专家一样,自主地完成从问题分解到结果输出的整个分析链路?
KDD Cup 2026 Data Agents 赛道正是为了解决这一核心痛点而生。它旨在推动构建下一代数据智能体(Data Agents):一种能够深度整合知识理解、智能推理和自主规划能力的革命性架构,从而实现真正意义上的自主数据分析。
02 揭秘 Data Agents:你的 AI 能独立思考吗?

一个真正强大的 Data Agent,绝不仅仅是执行预设指令的工具,它更像是一个拥有“大脑”的数据分析师。它需要具备以下核心能力,才能在复杂多变的数据世界中游刃有余:
智能分解与规划:当面对一个高层级的分析问题时,Data Agent 能够像人类专家一样,将其自主拆解为一系列逻辑清晰、可执行的精细化子任务,并制定出完成这些任务的步骤和策略。
灵活工具调用:在每个推理环节,它能根据当前任务需求,精准选择并调用最合适的工具,无论是执行 SQL 查询、运行 Python 脚本进行数据处理,还是调用外部 API 获取信息,都能信手拈来。
异构数据融合推理:真实世界的数据往往分散在不同的“角落”:结构化的数据库表格、半结构化的 JSON 配置文件、非结构化的 PDF 文档、甚至图像中的图表信息。Data Agent 必须具备在这些异构数据源之间进行无缝、高效的交叉推理能力。
结果综合与决策:完成一系列子任务后,Data Agent 需要将多步骤的中间结果进行智能综合、校验,并最终给出准确、可信且具有解释性的答案。
03 实战演练:DataAgent-Bench:企业级数据分析的缩影
为了真实模拟企业级数据分析的复杂场景,本次大赛特别设计了核心基准测试平台 DataAgent-Bench。它并非简单的问答系统,而是要求参赛者的 Data Agent 能够处理一系列“非线性”的推理任务。

想象一下这样的场景:
任务背景:你需要对公司 2025 年 Q3 季度的业绩进行复盘,找出哪些地区的实际销售额超出了预算目标 20%,并深入分析其背后的驱动因素。
你的 Data Agent 将面对的“数据迷宫”:
sales_transactions.sqlite:包含数百万条原始交易记录的数据库,但缺乏业务逻辑。region_mapping.json:定义地区代码与业务区域名称映射关系的配置文件。Company_Ops_Manual.md:一份非结构化的标准运营手册,其中隐藏着“预算目标”的计算公式和产品分类标准。Market_Report_Q3.md:一份市场分析报告,包含了对各地区宏观政策变动的定性描述,是分析业绩增长驱动因素的关键线索。
你的 Data Agent 需要完成的“侦探式”推理:
知识对齐与映射:首先,它需要从
Company_Ops_Manual.md中“学习”核算公式,并结合region_mapping.json将数据库中的抽象 ID 映射为真实的业务区域。多源数据整合:接着,基于提取的公式和映射逻辑,对
sales_transactions.sqlite执行复杂的跨表查询和计算,筛选出符合条件的地区名单。深度归因分析:最后,结合
Market_Report_Q3.md中的定性描述,对筛选出的地区进行业绩增长原因的自动化归因,最终输出分析结果。
DataAgent-Bench 精妙地捕捉了真实世界数据分析中常见的“顺序链”、“分支与合并”以及“迭代循环”等多种非线性推理模式,并根据“模态数量”与“干扰项规模”将难度细分为 Easy、Medium、Hard、Extreme 四个级别,旨在全面评估 Data Agent 的能力边界。
重磅福利:Phase 1 Demo 数据集及官方 Starter Kit 已发布!包含 Easy、Medium、Hard 和 Extreme 四个难度级别,并配套 GitHub 基准代码与工具链。立即前往官网 https://dataagent.top/ 下载,抢先体验挑战!
04 赛制升级:双阶段、双赛道,通往荣耀之路
KDD Cup 2026 采用严谨的两阶段赛制,确保赛事的公平性与深度:
Phase 1(单一主赛道):所有注册队伍将在统一的公共排行榜上竞技,通过自动化评估进行排名,考验基础能力与算法效率。
Phase 2(双子赛道):成功晋级的队伍将进入第二阶段,并可根据团队特长自由选择:
Leaderboard Subtrack(排行榜赛道):继续追求极致准确率,挑战包含数据图像、数据视频等更具挑战性的新模态数据。
Creative Subtrack(创意赛道):更注重系统设计与用户体验,鼓励构建成熟、交互友好且决策透明的 Data Agent 系统,展示创新应用潜力。
05 丰厚奖励与职业加速:你的未来,由你定义!
本次大赛设立总额 120,000 元人民币的丰厚奖金池,等待全球顶尖 Data Agent 团队前来瓜分!除了诱人的现金奖励,我们还为优胜者准备了多重职业与学术发展机会:
大厂 Offer 直通车:表现优异的团队将获得知名企业 Offer 的宝贵机会,为职业生涯按下加速键。
KDD Cup Workshop 专属演讲机会:在 KDD 2026 这一国际顶级学术会议的舞台上,向全球同行展示你的创新成果,获得广泛关注。
官方获奖证书:为你的学术履历增添浓墨重彩的一笔。

06 权威阵容:群星璀璨,为赛事保驾护航
本次大赛的组织委员会汇聚了数据智能领域的顶尖学者,他们不仅拥有深厚的学术背景,更具备丰富的赛事组织经验,确保大赛的专业性与公正性。
General Chairs 阵容:

李国良,ACM Fellow,IEEE Fellow,清华大学计算机系教授、副主任,国家杰出青年科学基金获得者(并延续资助),国家重点研发计划项目首席科学家,数据智能北京市重点实验室主任,计算机学会数据库专委会副主任。
骆昱宇,香港科技大学(广州)助理教授,研究兴趣为Data Agents、LLM Agents。在 SIGMOD、VLDB、KDD、ICML 等顶会发表论文40 余篇。曾获世界人工智能大会云帆奖、福布斯中国U30、华为火花奖。领导 OpenManus 和 DeepEye 开源智能体项目(GitHub 5.5万+ Stars),获日内瓦发明展银奖。
汤南,香港科技大学(广州)副教授,ACM Distinguished Member,国家高层次人才计划入选者。研究聚焦 AI4DB 与数据中心化 AI,曾获 VLDB 最佳论文奖及 SIGMOD 2024 Research Highlight Award。
李伯岩,香港科技大学(广州)博士生。研究方向聚焦于Text-to-SQL 和 Data Agents,在SIGMOD、KDD、VLDB、ICML等CCF-A类会议发表论文10余篇,领导DeepEye数据智能体开源项目,获日内瓦发明展银奖。

此外,组委会还邀请了多位深耕数据智能体、文档智能、信息提取、数据可视化、数据库系统及以数据为中心的 AI 等前沿领域的青年学者担任 Chair,共同为大赛的顺利进行提供坚实保障。
07 关键时间节点:不容错过的未来之约 (AoE 时区)
3月22日 - 4月23日:全球队伍注册阶段(机会稍纵即逝,立即组队,抢占先机!)
4月24日 - 5月23日:Phase 1 激烈角逐,初露锋芒
5月28日 - 6月30日:Phase 2 巅峰对决,决战紫禁之巅
8月9日:KDD 2026 现场公布最终获奖名单,荣耀加冕

大赛官网(数据集下载 & 赛事详情):复制链接 https://dataagent.top/ 到浏览器访问。