认知智能全国重点实验室获AAAI 2024全球大模型数学推理竞赛冠军
近期,由国际人工智能领域顶级会议AAAI联合多家企业和高校举办的AAAI 2024全球大模型数学解题竞赛(AAAI 2024 Global Competition on Math Problem Solving and Reasoning)圆满落幕。来自认知智能全国重点实验室的教育认知团队在英文(调用大模型API)赛道获得冠军,在中文(调用大模型API)赛道获得亚军。


比赛介绍
AAAI是全球人工智能领域顶尖学术协会之一,被中国计算机学会(CCF)推荐为A类会议。本次AAAI 2024全球大模型数学解题竞赛由暨南大学广东智慧教育研究院联合谷歌、好未来(学而思)等多家知名科技企业及高校的专家学者共同举办,是全球首个围绕大模型数学能力的比赛,吸引了众多专业人士参与,为产学界展示前沿科技成果、探索学术应用提供了平台。
本次比赛旨在呼吁全世界的研究人员和从业者探索大语言模型(Large Language Model)数学推理方面的能力与潜力,共设置英文(调用大模型API)、中文(调用大模型API)、英文(未调用大模型API)、中文(未调用大模型API)四条赛道。本次大赛吸引了来自美国Meta、英伟达、美国康奈尔大学、加州大学洛杉矶分校、英国牛津大学、清华大学、北京大学等120支队伍参赛。参赛团队要求大赛要求参赛队伍设计模型,使其能够读入竞赛水平(中国“迎春杯”、美国“AMC”等)的数学问题并推理出求解方法。其背后涉及了对逻辑推理、符号推理等智能系统必须具备多项能力的综合考察,被视为大语言模型的基础性研究、人工智能发展的关键性探索。
实验室团队解决方案
在人工智能领域,数学问题的解决一直是衡量技术先进性的标准之一。尽管大语言模型在多个领域取得了显著进展,但在数学推理这一特定问题上仍面临诸多挑战。
在本次比赛中,实验室团队的核心思路是利用大语言模型生成推理求解代码,并结合模型自我验证、自我一致性等技术提高推理的准确性与鲁棒性。具体来说,团队利用语言推理(Chain of Thought, CoT)方法让模型生成详细的逻辑推理步骤,增加解答过程的可解释性。同时,通过程序推理(Program of Thought, PoT)策略,自动生成Python代码并执行,利用数学库简化问题求解过程。

此外,实验室团队引入了一种基于多视图反馈的自我验证机制,通过反向推理对自身生成的答案进行检查。基于此,实现了动态加权的自一致性投票和自我修正策略,从而显著提高了大模型数学推理答案的准确率和稳定性。团队成员在AAAI 2024的AI for Education Workshop中进行了详细介绍。(链接:https://ai4ed.cc/aaai2024day1/)

实验室多年来深耕知识追踪、认知诊断和自适应学习等智能教育关键领域,构建了坚实的“人工智能+教育”理论与实践基础,此前多次在智能教育比赛中获奖,包括AAAI 2023-知识追踪挑战赛冠军(Global Knowledge Tracing Challenge) 、NeurIPS 2022-学习路径因果分析挑战赛冠军(Causal Insights for Learning Paths in Education)、EDM-CSEDM 2022国际计算机教育数据挖掘大赛三项冠军等。
此次实验室团队提出的解决方案不仅探索了大语言模型在数学推理任务上的能力,而且展现了人工智能技术在教育领域应用的广阔前景。 一方面,通过深入探索大语言模型的数学推理能力,我们能够更好地了解其在数学逻辑思维、问题解决和推断能力方面的潜力和局限性,为人工智能的发展提供重要参考和指导。 另一方面,实验室团队的方法为开发能够处理复杂学科问题、提供深入理解和支持学生学习的智能教育系统提供了思路。通过结合语言推理和程序推理的策略,本方法的推理过程具有良好的透明性和可解释性,能够帮助学生理解解题步骤、培养逻辑思维和问题解决能力,为开展个性化和自适应学习提供可能。
智能教育是大语言模型应用的前沿阵地之一,也是认知智能全国重点实验室的主要研究方向。随着大模型在数学等领域能力的重大突破,我们正站在一个可能引发长期甚至革命性教育变革的风口上,实验室将持续致力于推动智能教育技术的进步,不断探索和拓展人工智能在知识传播、学习效率提升和教育公平中的积极作用。