中美戰場2025年延燒至AI領域。1月20日就在川普(Donald Trump)宣布投資5,000億美元大搞人工智慧(AI)基礎建設的隔天,中國AI低成本模DeepSeek問世,一時之間全球市場震盪。
首當其衝的就是之前一直被視為AI領頭羊的輝達(NVIDIA)股價率先大跌,以此為震央,幾大科技巨頭股價也都出現雙位數跌幅。
到底DeepSeek公開的論文中寫了什麼?它會對全球科技業造成什麼衝擊?投資人又該如何應對?
DeepSeek優化演算法 大幅降低訓練成本
DeepSeek是中國對沖基金公司幻方量化旗下的一家子公司,成立於2023年。成立之初是幻方CEO認為AI對量化交易有幫助,希望能成立一家公司專門研發相關應用。
但由於中方被美國實施貿易封鎖,因此DeepSeek能買到的晶片只有閹割版本的NVIDIAH800與幻方之前為了拼高頻交易購買的A100兩種晶片,這兩種晶片都遠弱於市場用來訓練生成式AI最火熱的NVIDIAH100與GB200。
然而在這樣硬體不足的情況下,DeepSeek通過優化演算法,在短時間內讓自己建構的大型語言模型(LLM)達到了接近ChatGPT的程度,且花費與收費都比ChatGPT還低,這衝擊了圍繞ChatGPT與NVIDIA CUDA平台形成的AI護城河。
NVIDIA為首的AI科技業之所以能在過去3年大漲,本益比不斷調高,主要的立基點在於壟斷,這個壟斷是基於AI伺服器中心高昂的建置費用與CUDA平台的獨特生態鏈形成的。因此想進入生成式AI這個領域,大家的認知就是得擁有足夠多的算力並且需要用CUDA平台才能運行,也正是因為這樣的經濟模型,導致NVIDIA晶片長期供不應求。
但從DeepSeek公開的程式碼卻是告訴市場,生成式AI的發展不見得一定要在掌握超高算力之下才能發展。
DeepSeek採用的AI訓練方法被稱為MoE架構(Mixture of Experts),這個架構的特色就是每次推理時只啟動少部分的參數,達到與具備更多參數模型相當的成果。除此之外,公開的論文也表示,DeepSeek還通過一種新的注意力機制MLA(Multi-Head Latent Attention)使得AI訓練過程中的記憶體使用量進一步降低,最後就是通過優化演算法繞過了NVIDIA的CUDA,讓H800的GPU能發揮出比美國科技公司預計的更高的效能。
通過這樣的方式,雖然DeepSeek生成的答案會比較簡化,但成本可以大幅度降低。DeepSeek宣稱的訓練費用只有ChatGPT的10%,雖然不見得是真實的答案,但所耗費成本的確會比ChatGPT還要低。
這讓市場質疑過去花大錢投資、購買AI晶片的企業開始面臨巨大的回本壓力,畢竟有更便宜好用的商品,未來大家是否仍會繼續使用你的服務?過去花的錢如何回收?因此在DeepSeek團隊公開程式碼後,NVIDIA的股價才會暴跌,幾大雲端服務供應商(CSP)大廠股價也都跟著下跌。
但儘管短線股價震盪,但筆者認為這不代表AI產業或是這些CSP廠長期成長將受到影響,畢竟低成本的AI會讓更多企業開始願意嘗試使用AI,從整個產業的角度來看,產業的成長速度應會加快,且這不一定會讓高端需求減少。
舉例來說,早期只有照相館能拍照,照相館買的相機都是最好的,但等家用相機普及後,更多的人體會到拍照的樂趣,許多一般攝影愛好者甚至買的相機比相館的更好。做相機的廠商並沒有因為低階相機的出現使售價與銷量下滑,反而有所增長,也因為這樣,在短暫的恐慌後,這些公司的股價又開始緩步回升。
在DeepSeek問世後,預估未來類似的應用應該會如同雨後春筍ㄧ般湧出。因此筆者認為未來AI產業仍會高速發展,但將不會是龍頭壟斷,而是會百花齊放。