今年春節期間,全球AI產業迎來巨變,中國AI新創公司DeepSeek(深度求索)迅速崛起,其應用程式在短短時間內登上中國和美國的蘋果(美股代碼:AAPL)App Store免費下載排行榜冠軍,瞬間暴紅。
主要是DeepSeek在1月20日發表的DeepSeek-R1模型,不僅效能媲美OpenAI正式版,開發成本宣稱僅約560萬美元,與OpenAI高達1億美元的開發成本相比,性價比超級高。根據DeepSeek發表的研究論文顯示,該模型僅使用約2,000多顆輝達(美股代碼:NVDA)於2022年發表的H800晶片進行訓練,且DeepSeek採取「開源模型權重」策略及蒸餾技術(KnowledgeDistillation),儘管AI模型的開發成本與提升AI算力的建置成本不同,但與OpenAI「閉源模型」及高額成本對比,DeepSeek推出的低成本AI模型迅速受到廣泛關注。簡單來說,就是用很低的運算資源達到AI訓練模型的效果。事後OpenAI執行長奧特曼(Sam Altman)反思閉源模型是錯誤的,要學DeepSeek將推理模型的思考過程公開的開源策略,並於2月1日推出全新推理模型o3-mini,首次向所有用戶免費提供推理模型。
DeepSeek的開源模型權重策略,就是讓開發者可在現有模型基礎上進行創新,無需從零開始,降低AI模型開發的門檻。不僅如此,DeepSeek-R1遵循MIT License(授權條款),使用者可透過蒸餾技術利用R1來訓練其他模型。蒸餾技術是一種將大型且效能優異的模型壓縮為較小模型的技術。簡單來說,你可以把R1視為一位優秀的老師(大模型),將知識傳授給學生(小模型),使學生模型的效能趨近R1,但資源需求更少,依然能有優異的表現。