美團旗下 LongCat 團隊近日宣布,將其研發的原生多模態大型語言模型(LLM)LongCat-Next 全面開源。此舉引發業界廣泛關注,其核心亮點並非參數或效能跑分,而是一種從根本上顛覆傳統多模態模型建構思路的全新架構。
告別「膠水」架構:原生多模態的範式革命
當前主流的多模態大型模型,大多遵循一種「語言為王」的設計哲學。它們通常以一個強大的純文字大型語言模型為核心,透過新增額外的視覺編碼器或語音處理模組,來「教導」模型理解圖像和聲音。這種方法雖然有效,但本質上是一種「膠水式」的拼接,文字依然是模型世界的中心,其他模態則更像是附屬品。
LongCat-Next 徹底打破了此一常規。它沒有所謂的「主次模態」之分,而是從一開始就將文字、圖像、音訊三種模態視為平等的「語言」。其核心思想是,在模型處理之前,就將所有輸入(無論是何種模態)統一對應到一個共享的離散 Token 空間中。這標誌著從「以語言為中心」到「多模態原生」的重大轉變。
「萬物皆 Token」:一種更優雅的實現
LongCat-Next 的架構設計極具巧思。它將多模態處理的複雜性前置,轉移到針對各模態的 Tokenizer(編碼器)和 Detokenizer(解碼器)層,同時保持了核心骨幹網路的簡潔性。
具體流程如下:
- 統一編碼:無論是文字、圖片還是聲音,首先由各自的編碼器轉換為統一的離散 Token 序列。
- 單一處理:這些混合了不同模態資訊的 Token 序列,會被送入一個單一的、僅包含解碼器(Decoder-only)的骨干網路進行處理。
這種設計的最大優勢在於,核心模型架構可以像傳統的純語言模型一樣精簡且高效,無需為不同模態設計複雜的融合模組。模型只需學習一種規則——「next-token prediction」(預測下一個 Token),這個規則統一適用於所有模態,就像學習一門包含多種「方言」(文字、視覺、聽覺)的統一語言。
從「模態融合」到「模態平權」的行業訊號
LongCat-Next 的開源,其意義遠不止於為社群貢獻一個新模型,更重要的是它提出了一種新的建構哲學。它不再將圖像和音訊視為需要「轉譯」成文字才能被理解的外部資訊,而是將其視為與文字平權、可直接被模型理解和生成的原生資訊流。
這種「模態平權」的理念,可能為解決當前多模態模型的一些深層問題提供新思路。例如,當模型不再被迫將所有資訊都壓縮到文字的語意空間中時,它或許能更深刻地理解那些難以用語言描述的視覺細節或音訊韻律。美團選擇將此一具有前瞻性的架構開源,無疑將激發全球開發者和研究者探索超越傳統「語言中心論」的新可能,或將推動多模態技術進入一個更原生、更統一的全新發展階段。
