(國際話題)全球科研團隊競逐低成本AI模型研發新範式  彭茜

 美國斯坦福大學等機構研究團隊近日宣佈,在基座大模型基礎上,僅耗費數十美元就開發出相對成熟的推理模型。儘管其整體性能尚無法比肩美國開放人工智能研究中心(OpenAI)開發的o1、中國深度求索公司的DeepSeek-R1等,但此類嘗試意味著企業可以較低成本研發出適合自身的AI應用,AI普惠性有望增強。同時,其所應用的「測試時擴展」技術或代表一條更可持續的AI研發路徑。

 低成本玩轉高級推理

 美國斯坦福大學和華盛頓大學研究團隊近日宣佈研發出名為s1的模型,在衡量數學和編碼能力的測試中,可媲美o1和DeepSeek-R1等。研究團隊稱,訓練租用所需的計算資源等成本只需約幾十美元。

 s1的核心創新在於採用了「知識蒸餾」技術和「預算強制」方法。「知識蒸餾」好比把別人釀好的酒進一步提純。該模型訓練數據是基於谷歌Gemini Thinking Experimental模型「蒸餾」出的僅有1000個樣本的小型數據集。

 「預算強制」則使用了AI模型訓練新方法——「測試時擴展」的實現方式。「測試時擴展」又稱「深度思考」,核心是在模型測試階段,通過調整計算資源分配,使模型更深入思考問題,提高推理能力和準確性。

 「預算強制」通過強制提前結束或延長模型的思考過程,來影響模型的推理深度和最終答案。s1對阿里雲的通義千問開源模型進行微調,通過「預算強制」控制訓練後的模型計算量,使用16個英偉達H100 GPU僅進行26分鐘訓練便達成目標。

 美國加利福尼亞大學伯克利分校研究團隊最近也開發出一款名為TinyZero的精簡AI模型,稱復刻了DeepSeek-R1 Zero在倒計時和乘法任務中的表現。該模型通過強化學習,實現了部分相當於30億模型參數的大語言模型的自我思維驗證和搜索能力。團隊稱項目訓練成本不到30美元。

 「二次創造」增強AI普惠性

 清華大學計算機系長聘副教授劉知遠接受筆者採訪時說,部分海外研究團隊使用DeepSeek-R1、o1等高性能推理大模型來構建、篩選高質量長思維鏈數據集,再用這些數據集微調模型,可低成本快速獲得高階推理能力。

 相關專家認為,這是AI研發的有益嘗試,以「二次創造」方式構建模型增強了AI普惠性。但有三點值得注意:

 首先,所謂「幾十美元的低成本」,並未納入開發基座大模型的高昂成本。這就好比蓋房子,只算了最後裝修的錢,卻沒算買地、打地基的錢。AI智庫「快思慢想研究院」院長田豐告訴筆者,幾十美元成本只是最後一個環節的算力成本,並未計算基座模型的預訓練成本、數據採集加工成本。

 其次,「二次創造」構建的模型,整體性能尚無法比肩成熟大模型。TinyZero僅在簡單數學任務、編程及數學益智遊戲等特定任務中有良好表現,但無法適用於更複雜、多樣化的任務場景。而s1模型也只能通過精心挑選的訓練數據,在特定測試集上超過早期版本o1 preview,而遠未超過o1正式版或DeepSeek-R1。

 最後,開發性能更優越的大模型,仍需強化學習技術。劉知遠說,就推動大模型能力邊界而言,「知識蒸餾」技術意義不大,未來仍需探索大規模強化學習技術,以持續激發大模型在思考、反思、探索等方面的能力。

 AI模型未來如何進化

 在2025年美國消費電子展上,美國英偉達公司高管為AI的進化勾畫了一條路線圖:以智能水平為縱軸、以計算量為橫軸,衡量AI模型的「規模定律」呈現從「預訓練擴展」、到「訓練後擴展」,再到「測試時擴展」的演進。

 「預訓練擴展」堪稱「大力出奇跡」——訓練數據越多、模型規模越大、投入算力越多,最終得到AI模型的能力就越強。目標是構建一個通用語言模型,以GPT早期模型為代表。而「訓練後擴展」涉及強化學習和人類反饋等技術,是預訓練模型的「進化」,優化其在特定領域的任務表現。

 隨著「預訓練擴展」和「訓練後擴展」邊際收益逐漸遞減,「測試時擴展」技術興起。田豐說,「測試時擴展」的核心在於將焦點從訓練階段轉移到推理階段,通過動態控制推理過程中的計算量(如思考步長、迭代次數)來優化結果。這一方法不僅降低了對預訓練數據的依賴,還顯著提升了模型潛力。

 三者在資源分配和應用場景上各有千秋。預訓練像是讓AI模型去學校學習基礎知識,而後訓練則是讓模型掌握特定工作技能,如醫療、法律等專業領域。「測試時擴展」則賦予了模型更強推理能力。

 AI模型的迭代還存在類似摩爾定律的現象,即能力密度隨時間呈指數級增強。劉知遠說,2023年以來,大模型能力密度大約每100天翻一番,即每過100天,只需要一半算力和參數就能實現相同能力。未來應繼續推進計算系統智能化,不斷追求更高能力密度,以更低成本,實現大模型高效發展。◇