面向LLM高效代码生成能力的分级评测框架

智猩猩AI新青年讲座 2025/07/21 10:00:00

课程讲师

邱睿中伊利诺伊大学厄巴纳-香槟分校博士生

美国伊利诺伊大学厄巴纳—香槟分校（UIUC）博士一年级学生，师从Hanghang Tong教授,目前研究方向聚焦于大语言模型（LLM）的理论基础与算法设计。硕士毕业于UIUC，主要从事离散域机器学习等方面的研究。曾在ICLR、ICML、NeurIPS等国际顶级学术会议上发表多篇论文，代表性成果包括DIMES、GraCe、ENAMEL等。

邱睿中

伊利诺伊大学厄巴纳-香槟分校博士生

课程提纲

1、当前代码效率评测的现状与挑战
2、分级评测框架ENAMEL
3、代码效率评测指标eff@k
4、评测问题选择与基线构建
5、评测结果分析与展望

课程简介

在大规模开源代码库的支持下，大型语言模型（LLMs）显著推动了代码生成领域的发展。目前，已有多种面向代码生成的LLM被推出，这些模型能够根据自然语言描述或函数标记等提示信息自回归地生成代码。随着技术的不断进步，对LLM生成代码进行全面评估的需求日益凸显。

当前主流的评估框架主要关注代码的功能正确性，通常利用编程问题和测试用例来验证生成代码是否符合预期行为。然而，代码效率在实际应用中是衡量代码质量的重要维度，直接影响系统吞吐量、算法响应时间和资源消耗。因此，需要构建新的评测体系，将效率作为核心评估指标之一，从而提升LLM生成代码的质量。

针对上述问题，伊利诺伊大学厄巴纳-香槟分校联合高通人工智能研究部门的研究者们提出了一个评估LLM高效生成代码能力的新型评测框架ENAMEL（EfficeNcy AutoMatic EvaLuator）。在此基础上，研究者们进一步提出了一种新型效率指标eff@k，该指标将经典的正确性评估拓展至效率评估。

为了评估代码的效率，研究者设计了一个分级评测框架ENAMEL。各层级的输入规模依次递增，且所有层级设定相同的程序执行时间限制。该输入规模体系由领域专家精心设计，旨在使不同效率的算法在相应层级体现出差异化的通过能力。

该成果提出了一种新的效率度量指标eff@k，从正确性拓展至效率维度。eff@k能够合理处理右删失执行时间问题，并准确评估不同代码的效率。此外，通过Rao–Blackwellization方法推导出了eff@k的无偏且方差更低的估计器，并提供了数值稳定的实现方式。

为了确立高标准的代码效率评测基线，由人类专家设计最优算法作为效率基线。其中，许多由人类专家设计的解法执行效率上优于HumanEval与HumanEval+中标准实现算法。为确保评估过程的严谨性，专家还构建了一个测试用例生成器，旨在有效筛选错误代码并区分不同效率级别的算法。

使用ENAMEL对30个主流LLM进行评测，虽然这些模型在代码生成方面展现了一定的能力，但与人类专家相比其效率和质量上仍存在明显的不足，未来工作需要进一步改进。

7月21日早上10点，邱睿中博士将参加「智猩猩AI新青年讲座」，以《面向LLM高效代码生成能力的分级评测框架》为主题进行成果讲解。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...