Pessimistic Verification 方法示意图

悲观验证:让大模型更会检查数学证明

在数学智能体中,“会做题”还不够,“会检查证明”同样关键。无论是让模型反复改进自己的解答,还是在强化学习中给开放式证明提供反馈,自动验证都决定了系统能否长期可靠地工作。 我们的 ICML 2026 论文 Pessimistic Verification for Open-Ended Math Questions 研究了一个简单但有效的思路:验证数学证明时,与其让多个评审投票,不如把任务明确改成“找错”。只要任意一个评审发现了关键错误,这份证明就应当被拒绝。 ...

2026年5月17日
AI Mathematician 框架总览

AI数学家:迈向数学前沿研究的全自动化

数学是人类智慧的结晶,在文明发展中始终居于核心地位。借助人工智能解决数学问题,一直是科学家孜孜以求的目标。数学问题天然分为多层次难度:从小学生、初高中生到大学生、研究生,再到专业数学家,所需的知识体系与推理能力逐级递进、各有侧重。近年来,大模型,尤其是大推理模型(Large Reasoning Models, LRMs)的飞速发展,大幅提升了AI在数学求解上的能力。然而,现有研究主要聚焦于计算类与竞赛类题目,在系统性解决研究级数学问题方面仍鲜有突破。基于此,研究团队提出AI数学家系统AIM(AI Mathematician,并寓意“Our AIM is AI Mathematician”),旨在引领AI从解决计算与竞赛题目迈向处理真实数学研究问题的新时代。 ...

2025年6月5日