返回 Signals Desk
Signals Desk // ai-news已核验简报

DeepMind 推出 AlphaReason:AI 无需人类提示即可破解复杂数学难题

Google DeepMind 推出的 AlphaReason 利用强化学习自主破解复杂数学定理,完全摆脱了对人类提示词的依赖。

DeepMindReinforcement LearningMathematical AI
DeepMind 推出 AlphaReason:AI 无需人类提示即可破解复杂数学难题

Google DeepMind 推出了全新强化学习模型 AlphaReason,专攻尚未解决的数学定理。与以往高度依赖人类引导的系统不同,AlphaReason 完全无需人类提示(Prompt)即可达到业内领先水平。这一突破标志着人工智能在处理形式逻辑与复杂推理时的范式转变。

人工智能的数学瓶颈

长期以来,数学一直是阻挡顶尖人工智能系统的一道高墙。尽管现代大语言模型(LLM)能写出文采飞扬的文章、编写实用代码,甚至通过标准化医学考试,却常常在基础算术或多步逻辑推导上栽跟头。这种反差源于大语言模型的底层架构:它们本质上是概率引擎,依靠海量训练数据来预测下一个最可能出现的词元(Token)。

然而,数学并非概率游戏,而是极其严谨的确定性科学。一个凭空捏造(幻觉)的变量或缺失的逻辑步骤,都会导致整个数学证明作废。此前,研究人员尝试外接计算器或使用检索增强生成(RAG)技术调用已知公式来弥补这一缺陷。但 RAG 等技术只能检索现有知识,无法生成破解未解定理所需的全新逻辑路径。AlphaReason 彻底摒弃了纯文本预测范式,不再将数学证明视作需要模仿的语言,而是将其当作一个规则严苛、亟待探索与征服的逻辑环境。

强化学习破解数据稀缺难题

AlphaReason 的核心突破在于,它重度依赖强化学习,而非传统的监督微调(Fine-tuning)。在机器学习领域,训练模型执行复杂任务通常需要海量高质量的人类标注数据。在语言或图像生成领域,这类数据取之不尽;但在前沿的未解数学定理领域,这类数据根本不存在。

借助强化学习,DeepMind 让 AlphaReason 在形式化证明环境中通过自我探索来学习。模型尝试提出逻辑步骤,环境则给出即时且客观的反馈:该步骤在逻辑上要么成立,要么不成立。这与 DeepMind 训练 AlphaGo 的思路如出一辙——通过数百万次的自我对弈,发现人类大师都未曾涉足的策略。AlphaReason 不再依赖深度学习架构去死记硬背人类的证明过程,而是培养出自己对形式逻辑的“直觉”。它在由各种数学运算构成的高维空间中不断搜索,直到找出通向定理结论的有效路径,从而巧妙绕过了困扰传统模型的数据稀缺问题。

形式逻辑领域“提示词工程”的终结

AlphaReason 带来的最具颠覆性的操作转变,或许正是它的高度自主性。当前……