20美元、26分鐘就搞定!李飛飛團隊復刻DeepSeek-R1模型,效能更勝Open AI o1
20美元、26分鐘就搞定!李飛飛團隊復刻DeepSeek-R1模型,效能更勝Open AI o1

花費 20 美元、半小時不到的時間就能訓練出一個媲美 DeepSeek-R1 和 OpenAI o1 的推理模型?!

被譽為「AI 教母」的知名華裔美籍科學家李飛飛,其團隊最近發布一篇新論文,令人震驚的是,他們成功降低了復刻 DeepSeek R1 推理模型的成本。根據論文內容,利用阿里系開源的 Qwen2.5-32B-Instruct 模型進行監督微調(SFT),僅需在 16 個輝達 H100 GPU 上訓練 26 分鐘,而所需的算力租賃成本約為 20 美元。

研究人員指出,這種省時省錢的模型在數學競賽類問題上的表現甚至超過了 OpenAI 的 o1 預覽版,實驗結果顯示,s1-32B 的成績在 MATH 和 AIME24 數據集上超出 o1-preview 多達 27%。李飛飛團隊的研究成果已在 GitHub 上開源。

此外,研究團隊還提出了一種名為「預算控制」(budget forcing)的策略,旨在調整測試時的運算資源。具體方法是強制終止模型的推理過程,或在生成內容時多次附加「Wait」,以延長模型的思考時間。這種方法能夠促使模型自我檢查答案,從而修正錯誤的推理步驟。在論文中,研究者以經典的數 R 問題為例,展示了這個策略的有效性。

李飛飛團隊的 s1 模型可視為 Qwen2.5 和 Gemini 2.0 Flash Thinking Experimental 的結合體。透過精心篩選的 1000 個問題及其答案,研究人員記錄了 Gemini 2.0 Flash 的 “思考過程”,並利用這些資料建立訓練集,對 Qwen2.5-32B-Instruct 進行微調。

有趣的是,這種做法可能違反了 Google 的使用條款,Google 禁止使用者對其模型進行逆向工程以開發競爭產品。對此,谷歌尚未回應。

在論文中,研究人員強調,s1 模型希望找到實現強推理能力和「測試時擴展」的最簡單方法。與 DeepSeek 的「大規模強化學習」方法相比,SFT 的成本顯著降低,因為它使用的是高品質的標註數據,且只需少量樣本即可獲得良好性能。

李飛飛團隊的這項研究再次引發了業界的關注。僅需 20 美元的投入和半小時的訓練時間,就能達到與 OpenAI 等公司數百萬美元成果相媲美的效果。這無疑為學界的研究人員提供了新的機遇,使他們無需巨額資金即可在 AI 領域取得創新突破。

然而,推理模型的未來「商品化」仍然是一個值得關注的問題。如果少量資金就能複製出價值數百萬美元的 AI 模型,企業的競爭優勢又將何在?儘管蒸餾是一種有效的複現方法,但仍需有志向的創新者和巨人來推動 AI 的發展。

延伸閱讀:DeepSeek懶人包|MLA架構強在哪?什麼是知識蒸餾?6大QA解密DeepSeek效應
「晶片能封鎖,但開源鎖不住!」DeepSeek如何撼動美國AI壟斷?

本文授權轉載自:鉅亨網

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣50
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓