Google DeepMind 推出了一款名為 AlphaReason 的全新強化學習模型,能夠挑戰尚未解決的數學定理。與過去高度依賴人類引導的系統不同,AlphaReason 完全不需要人類提示(Prompting)就能達到最先進(State-of-the-art)的表現,這標誌著人工智慧在處理形式邏輯與複雜推理上出現了重大轉變。
人工智慧的數學瓶頸
長期以來,數學對即使是最先進的人工智慧系統而言,也是一道難以跨越的高牆。現代的大型語言模型(LLM)雖然能寫出文情並茂的文章、撰寫具備功能的程式碼,甚至通過標準化的醫學考試,卻經常在基礎算術或多步驟的邏輯推演上栽跟頭。這種落差源自於這些模型的基本架構:它們是機率引擎,設計目的是根據龐大的訓練資料集來預測下一個最有可能出現的詞彙(Token)。
然而,數學並非機率,而是絕對的決定論(Deterministic)。只要出現一個幻覺(Hallucinated)變數或漏掉一個邏輯步驟,整個數學證明就會宣告無效。研究人員曾試圖透過外掛計算機或利用檢索增強生成(RAG)技術引入經過驗證的公式來彌補這項缺陷。但是,RAG 及類似技術只能檢索既有知識,無法生成解開未解定理所需的前所未見的邏輯路徑。AlphaReason 摒棄了純文字預測的典範,不再將數學證明視為需要模仿的語言,而是將其當作一個嚴格的環境來進行探索與征服。
強化學習克服資料稀缺問題
AlphaReason 的突破性關鍵在於它高度仰賴強化學習,而非傳統的監督式微調(Supervised Fine-tuning)。在機器學習領域中,訓練模型執行複雜任務通常需要海量且高品質的人類資料。對於語言或圖像生成來說,這類資料唾手可得;但對於高深、尚未解開的數學定理而言,這類資料根本不存在。
透過部署強化學習,DeepMind 讓 AlphaReason 能夠在形式證明(Formal proof)環境中透過自我探索來學習。模型會提出邏輯步驟,而環境則提供即時、客觀的回饋:該步驟在邏輯上是否有效。這與 DeepMind 在 AlphaGo 上採用的策略如出一轍,當時系統透過數百萬次的自我對弈,發掘出人類大師也未曾知曉的策略。AlphaReason 不依賴深度學習架構去死記硬背人類的證明過程,而是建立起自己對形式邏輯的直覺。它在可能數學運算的高維度空間中進行搜尋,找出通往定理結論的有效路徑,成功繞過了困擾傳統模型的資料稀缺問題。
形式邏輯領域「提示工程」的終結
AlphaReason 所帶來最重大的操作模式轉變,或許就在於它的自主性。目前...
