近期開源人工智慧社群一反常態,不再是 Qwen、DeepSeek 等巨擘的大型模型軍備競賽,取而代之的是一股「百花齊放」的新浪潮。從光學字元辨識(OCR)到語音轉錄,再到程式碼編輯和數學定理證明,大量來自不同背景開發者的、針對特定領域的模型集中湧現,預示著開源生態正從「唯大是論」轉向更加務實和多元化的發展路徑。
巨頭入局:NVIDIA 與 Cohere 的開放新姿態
在這次的發布浪潮中,NVIDIA 和 Cohere 的表現尤其亮眼,它們不僅貢獻了強大的模型,更在開放策略上邁出了重要一步。
NVIDIA 期待已久的 Nemotron-3-Super-120B 終於亮相。這款模型總參數數量為 120B,啟用參數為 12B,擁有高達 100 萬 token 的上下文視窗。技術上,它首次在開源模型中採用了 LatentMoE 架構和 NVFP4 進行預訓練,並同步發布了詳盡的技術報告和絕大部分的預訓練資料集,展現了 NVIDIA 在開放生態建構上的誠意。
與此同時,Cohere 推出的語音轉錄模型 cohere-transcribe-03-2026 也帶來了驚喜。該模型基於 Conformer 架構,支援包括阿拉伯語在內的 14 種語言。最關鍵的是,它採用了 Apache 2.0 授權條款,與 Cohere 以往的非商業授權形成鮮明對比。這一轉變意味著開發者可以將其用於商業產品,極大地激發了其應用潛力。
主權 AI 與垂直應用:新興力量的崛起
除了科技巨擘,來自世界各地的新興力量也在特定領域展現出驚人的實力。印度新創公司 SarvamAI 發布的 sarvam-105b 模型就是一個典型案例。該模型在高達 12-16T token 的資料集上訓練,其在印度語系上的表現遠超其他同等規模的 SOTA 開源模型。這不僅證明了「主權 AI」的重要性,也為其他國家和地區發展在地化人工智慧提供了範本。
這股「專精特新」的風潮也席捲了其他垂直領域:
- 多模態:美團的 LongCat-Next 模型實現了文字、視覺和音訊的輸入與輸出,而 YuanLabAI 發布的 Yuan3.0-Ultra 更達到了兆級參數的規模。
- 程式碼編輯:開源程式碼編輯器 Zed 發布的 zeta-2 模型,基於使用者選擇性加入的資料進行訓練,專注於程式碼編輯預測。
- 數學與推理:美團的 LongCat-Flash-Prover 是針對 Lean4 數學證明的微調模型,而微軟的 Phi-4-reasoning-vision-15B 則整合了 SigLIP-2 視覺編碼器,強化了推理能力。
效率至上:架構創新與模型壓縮
當模型規模不再是唯一追求時,推理效率和架構創新便成為新的競爭焦點。NVIDIA 在這一方向上同樣走在前端。其發布的 gpt-oss-puzzle-88B 模型,是利用神經架構搜尋(NAS)框架對 GPT OSS 120B 進行專家剪枝的產物,旨在不犧牲甚至提升推理精準度的前提下,大幅優化推理效率。
此外,NVIDIA-Nemotron-3-Nano-4B-BF16 作為一款深度壓縮模型,也體現了業界對輕量化、高效率模型的迫切需求。艾倫人工智慧研究所(AI2)的 Olmo-Hybrid-7B 則透過混合式注意力機制和門控 DeltaNet(GDN)探索了模型架構的新邊界。
產業展望:從「大而全」到「小而美」
本次開源模型的集中發布,清晰地勾勒出人工智慧產業的一個重要趨勢:一個由少數頂級閉源大型模型和海量開源領域專用模型互補的生態系正在形成。當頂尖模型的競爭日趨白熱化,這種遍布產業角落、大規模的「修補與創新」反而成為推動人工智慧技術落地和商業化的關鍵力量。未來,我們將看到更多針對特定場景、成本更低、效率更高的「小而美」模型,它們將與通用大型模型協同工作,共同建構一個更加繁榮和穩健的人工智慧未來。
