DeepMind 推出 AlphaReason：AI 无需人类提示即可破解复杂数学难题

Google DeepMind 推出了全新强化学习模型 AlphaReason，专攻尚未解决的数学定理。与以往高度依赖人类引导的系统不同，AlphaReason 完全无需人类提示（Prompt）即可达到业内领先水平。这一突破标志着人工智能在处理形式逻辑与复杂推理时的范式转变。

人工智能的数学瓶颈

长期以来，数学一直是阻挡顶尖人工智能系统的一道高墙。尽管现代大语言模型（LLM）能写出文采飞扬的文章、编写实用代码，甚至通过标准化医学考试，却常常在基础算术或多步逻辑推导上栽跟头。这种反差源于大语言模型的底层架构：它们本质上是概率引擎，依靠海量训练数据来预测下一个最可能出现的词元（Token）。

然而，数学并非概率游戏，而是极其严谨的确定性科学。一个凭空捏造（幻觉）的变量或缺失的逻辑步骤，都会导致整个数学证明作废。此前，研究人员尝试外接计算器或使用检索增强生成（RAG）技术调用已知公式来弥补这一缺陷。但 RAG 等技术只能检索现有知识，无法生成破解未解定理所需的全新逻辑路径。AlphaReason 彻底摒弃了纯文本预测范式，不再将数学证明视作需要模仿的语言，而是将其当作一个规则严苛、亟待探索与征服的逻辑环境。

强化学习破解数据稀缺难题

AlphaReason 的核心突破在于，它重度依赖强化学习，而非传统的监督微调（Fine-tuning）。在机器学习领域，训练模型执行复杂任务通常需要海量高质量的人类标注数据。在语言或图像生成领域，这类数据取之不尽；但在前沿的未解数学定理领域，这类数据根本不存在。

借助强化学习，DeepMind 让 AlphaReason 在形式化证明环境中通过自我探索来学习。模型尝试提出逻辑步骤，环境则给出即时且客观的反馈：该步骤在逻辑上要么成立，要么不成立。这与 DeepMind 训练 AlphaGo 的思路如出一辙——通过数百万次的自我对弈，发现人类大师都未曾涉足的策略。AlphaReason 不再依赖深度学习架构去死记硬背人类的证明过程，而是培养出自己对形式逻辑的“直觉”。它在由各种数学运算构成的高维空间中不断搜索，直到找出通向定理结论的有效路径，从而巧妙绕过了困扰传统模型的数据稀缺问题。

形式逻辑领域“提示词工程”的终结

AlphaReason 带来的最具颠覆性的操作转变，或许正是它的高度自主性。当前……