華為晶片無法完成訓練 DeepSeek新AI模型延後發布

發布時間:2025/08/14 17:50:57
更新時間:2025/08/14 18:04:24
FaceBookcopyLinkLine

(中央社北京14日綜合外電報導)英媒報導,中國人工智慧(AI)新創公司深度求索(DeepSeek)因無法利用華為晶片進行訓練,因此延後推出新模型。此事凸顯北京致力取代美國技術的努力面臨侷限。

華為晶片無法完成訓練 DeepSeek新AI模型延後發布

(中央社北京14日綜合外電報導)英媒報導,中國人工智慧(AI)新創公司深度求索(DeepSeek)因無法利用華為晶片進行訓練,因此延後推出新模型。此事凸顯北京致力取代美國技術的努力面臨侷限。


英國「金融時報」(Financial Times)引述3名消息人士說法報導,DeepSeek今年1月推出R1模型後,在當局鼓勵下,採用華為昇騰晶片,而非輝達(Nvidia)晶片。


不過,知情人士透露,Deepseek在利用昇騰晶片訓練R2模型過程中持續遇到技術問題,因此改採輝達晶片進行訓練,並僅在推理(Inference)階段使用華為晶片。


熟悉內情人士表示,上述技術問題就是R2模型預定5月發布卻延後的主因,DeepSeek因此在競爭中落後對手。


訓練(Training)意指讓模型透過大量資料集進行學習;推理則是讓已完成訓練的模型預測或生成回應,例如聊天機器人回答用戶提問。


DeepSeek的困境顯示,中國晶片在關鍵任務上仍落後美國對手,也凸顯中國在追求科技自主上面臨挑戰。


金融時報本週披露,北京當局要求中國科技公司說明採購輝達H20晶片的理由,藉此推動企業採用華為及寒武紀(Cambricon)等國產替代方案。


根據業界人士,中國晶片存在穩定性問題、晶片間連接速度較慢,且相較於輝達產品,軟體表現較為落後。


據2名知情人士,華為曾派出工程師團隊前往DeepSeek辦公室駐點,協助利用昇騰晶片開發R2模型。儘管如此,DeepSeek仍無法在昇騰晶片上完成訓練。


消息人士稱,DeepSeek目前仍持續與華為合作,希望模型能在推理階段與昇騰晶片相容。


DeepSeek創辦人梁文峰向內部透露,他對R2的進展感到不滿,並積極要求團隊投入更多時間,以打造可鞏固公司AI領先地位的先進模型。


另名消息人士說,R2推出之所以延宕,也是因為資料標註工作耗時超過預期。中國媒體近期報導,R2可望於未來數週內發布。


加州大學柏克萊分校(University of California, Berkeley)AI研究員古普塔(Ritwik Gupta)指出:「模型本身就是可以輕易更換的商品。現在許多開發者都在使用阿里巴巴的Qwen3,這款模型功能強大又具彈性。」


古普塔指出,Qwen3採用DeepSeek的核心概念,例如讓模型具備推理能力的訓練演算法,但在使用效率上有所提升。


研究華為AI生態系的古普塔說,華為在利用昇騰晶片訓練模型方面正歷經「成長陣痛」。儘管如此,他預期這家中國指標性企業終究可以調適。


古普塔說:「現在沒看到頂尖模型使用華為晶片訓練,不代表未來不會發生,只是時間早晚的問題而已。」


DeepSeek與華為皆未回應金融時報提出的置評請求。(譯者:劉淑琴/核稿:施施)1140814


延伸閱讀