数学验证 | AIM Blog

在数学智能体中，“会做题”还不够，“会检查证明”同样关键。无论是让模型反复改进自己的解答，还是在强化学习中给开放式证明提供反馈，自动验证都决定了系统能否长期可靠地工作。我们的 ICML 2026 论文 Pessimistic Verification for Open-Ended Math Questions 研究了一个简单但有效的思路：验证数学证明时，与其让多个评审投票，不如把任务明确改成“找错”。只要任意一个评审发现了关键错误，这份证明就应当被拒绝。 ...