SemiAnalysis 是一家精品半導體研究和咨詢公司。Dylan Patel是SemiAnalysis首席分析師。這是Dylan Patel新鮮出爐的Deepseek 分析。
筆記俠對本份報告進行了翻譯,第一時間分享給最近在持續關注Deepseek 的俠友們。
這份報告的核心,是指出DeepSeek憑借“多頭潛在注意力(MLA)”等創新技術,顯著降低推理成本;結合專家混合模型(MoE)的動態路由算法和多標記預測技術,實現算法效率的指數級提升,推動相同算力下模型性能的跨越式發展。
同時,在組織架構上,DeepSeek通過扁平化架構、自建數據中心、頂尖人才戰略(百萬美元級薪酬挖角清北精英),形成遠超谷歌等巨頭的創新速度,是中國AI初創企業首次在核心算法層面對西方形成實質性挑戰。
一、DeepSeek如風暴般席卷全球
DeepSeek 風靡全球。在過去的一周里,DeepSeek 是世界上唯一一個想談論的話題。就目前而言,DeepSeek 的每日流量現在遠高于 Claude、Perplexity 甚至 Gemini。
但對于觀察者來說,這并不完全是“新”新聞。DeepSeek已經有幾個月了。這家公司并不是新公司。
DeepSeek非常有才華,美國更廣泛的公眾并不關心。當世界最終關注時,它在一種不反映現實的強迫性炒作中得到了關注。
我們想強調的是,現在算法的改進太快了,這對英偉達和GPU來說也是不利的。
現在的情況是,DeepSeek非常高效,不需要更多的計算,而由于模型的改變,所有東西現在都出現了巨大的產能過剩。雖然杰文斯悖論也被過度炒作,但杰文斯更接近現實,模型已經誘導了需求,對H100和H200的定價產生了實際影響。

二、DeepSeek和High-Flyer(幻方量化基金)
High-Flyer(幻方)是一家中國對沖基金,是使用人工智能進行交易算法的早期采用者。他們很早就意識到人工智能在金融領域以外的潛力,以及規模化的關鍵見解。
因此,他們一直在持續增加GPU的供應。在嘗試使用數千個GPU的集群模型后,High-Flyer(幻方)在2021年做出了投資,購買了10000個A100 GPU,當時還沒有任何出口限制。這得到了回報。
隨著High-Flyer(幻方)的改進,他們意識到是時候在2023年5月剝離出“DeepSeek”了,目標是追求更專注、更進一步的AI能力。High-Flyer(幻方)自籌資金,因為當時外部投資者對AI幾乎沒有興趣,缺乏商業模式是主要擔憂。High-Flyer(幻方)和DeepSeek今天經常共享資源,包括人力和計算資源。
DeepSeek現在已經發展成為一個嚴肅的項目,絕不像許多媒體所說的那樣是一個“副業項目”。我們有信心,即使考慮到出口管制,他們的GPU投資也超過5億美元。
三、GPU的情況
我們相信他們可以訪問大約50000個英偉達Hopper GPU ,這與一些人聲稱的50000個H100不同。英偉達根據不同的法規制造了不同版本的H100(H800、H20),目前只有H20可以供中國型號提供商使用。注意,H800的計算能力與H100相同,但網絡帶寬更低。
我們相信DeepSeek有大約10000個H800和大約10000個 H100。此外,他們還有更多的H20訂單,英偉達在過去9個月中生產了超過100萬個中國專用GPU。這些GPU在High-Flyer(幻方)和DeepSeek之間共享,并在一定程度上地理分布。它們用于交易、推理、培訓和研究。

我們的分析顯示,DeepSeek的總服務器資本支出幾乎達到13億美元,其中相當大一部分成本(7.15億美元)與運營此類集群有關。
DeepSeek只從中國招募人才,不考慮之前的資歷,非常注重能力和好奇心。DeepSeek經常在頂尖大學如北京大學和浙江舉辦招聘活動,許多員工畢業于這些大學。職位不一定是預先定義的,招聘過程是他們的招聘廣告甚至宣稱可以擁有10,000個GPU,且沒有使用限制。他們非常具有競爭力,據稱會為有前途的候選人提供超過130萬美元的薪水,遠遠超過中國的大型科技公司。他們擁有約150名員工,但正在迅速增長。
正如歷史所顯示的那樣,一家資金充足且專注的初創公司往往能夠突破可能性的界限。DeepSeek缺乏像谷歌這樣的官僚機構,并且由于他們自籌資金,可以在想法上快速行動。
然而,與谷歌一樣,DeepSeek(在很大程度上)運行自己的數據中心,而不依賴外部方或提供商。這為實驗開辟了更多空間,使他們能夠在整個堆棧上進行創新。
我們相信他們是當今最好的“開源權重”實驗室,擊敗了Meta的Llama、Mistral和其他實驗室。
四、DeepSeek的成本和性能
DeepSeek的價格和效率本周引發了狂熱,頭條新聞是DeepSeek V3的訓練成本為“600萬美元”。這是錯誤的。這類似于指向產品材料清單的某個特定部分并將其歸為整個成本。預訓練的成本在總成本中占非常小的一部分。
1.訓練費用
我們相信預訓練的數字遠遠低于實際在模型上花費的金額。我們確信他們的硬件支出遠高于5億美元。為了開發新的架構創新,在模型開發期間,有相當大的支出用于測試新想法、新架構思想和改進。
DeepSeek的一項關鍵創新——多頭潛在注意力——花費了大量資金。花了幾個月才開發出來,并花費整個團隊的人力和GPU時間。
論文中提到的600萬美元成本僅包括預訓練運行中的GPU成本,而這只是模型總成本的一部分。研發以及硬件本身的總擁有成本等重要部分被排除在外。作為參考,Claude 3.5 Sonnet需要花費數百萬美元進行訓練,如果這是Anthropic所需的總成本,那么他們就不會從谷歌籌集數十億美元,從亞馬遜籌集數百億美元。這是因為他們必須進行實驗,提出新的架構,收集和清理數據,支付員工費用等等。
那么, DeepSeek 是如何擁有如此龐大的集群的呢?出口控制的滯后是關鍵所在,將在下面的出口部分進行討論。
2.縮小差距——V3的性能
V3無疑是一個令人印象深刻的模型,但值得強調的是相對于什么而言令人印象深刻。許多人將V3與GPT-4o進行了比較,并強調了V3如何擊敗了4o的性能。這是真的,但GPT-4O是在2024年5月發布的。AI 進展迅速,2024 年 5 月是算法改進的另一個生命周期。
此外,我們并不驚訝地發現,在給定的時間后,需要更少的計算就能實現類似或更強的能力。推理成本下降是 AI 改進的標志。

一個例子是,可以在筆記本電腦上運行的小模型具有與GPT-3相當的性能,GPT-3需要一臺超級計算機來訓練和多個GPU來推斷。
換句話說,算法的改進允許更少的計算量來訓練和推斷相同能力的模型,這種模式反復出現。這次世界注意到了這一點,因為它來自中國的實驗室。但小型模型越來越好并不是新鮮事。

到目前為止,我們所見證的模式是,人工智能實驗室花費了更多的絕對資金,以獲得更智能的產品。據估計,算法進展為每年4次,這意味著每過一年,實現相同能力所需的計算量會減少4倍。Anthropic(OpenAI的死對頭)的執行官達里奧認為, 算法的進步甚至更快,并且可以產生一個10倍的改進。就GPT-3質量的推理定價而言,成本已經下降了1200倍。
當研究GPT-4的成本時,我們看到類似的成本下降,盡管是在曲線的早期。雖然成本差異的減少可以解釋為不再那樣保持能力恒定。在這種情況下,我們看到算法的改進和優化創造了成本下降了10倍,而能力增加。

需要明確的是,DeepSeek的獨特之處在于他們首先實現了這種成本和能力。他們在發布開放重量方面是獨一無二的,但之前的Mistral和Llama模型也曾這樣做過。DeepSeek已經實現了這種成本水平,但如果到年底,成本再下降5倍,也不要感到震驚。
3.R1的性能與o1匹配嗎?
另一方面,DeepSeek R1能夠取得與GPT o1相當的成績,而o1在9月份才剛剛公布,DeepSeek怎么能這么快趕上來呢?
答案是,推理是一種新的范式,具有更快的迭代速度,比以前的范式在更小的計算量下獲得了有意義的收益。正如我們在本文中概述的那樣,以前的模式依賴于預訓練,而這變得越來越昂貴,也越來越難以取得穩健的成果。
新范式專注于通過合成數據生成和強化學習后在現有模型上進行后期訓練來提高推理能力,從而以更低的價格更快地獲得收益。
較低的進入門檻加上易于優化意味著DeepSeek能夠比平時更快地復制o1方法。隨著玩家在新范式中找到更多的擴展方式,我們預計匹配能力之間的時間差距將會增加。
請注意,R1論文沒有提到所使用的計算量。這不是偶然的——為訓練后的R1生成合成數據需要大量的計算量。更不用說RL了。
R1是一個非常好的模型,我們對此沒有異議,而且如此迅速地趕上推理優勢,在客觀上令人印象深刻。DeepSeek是中國的,并且資源更少,這一事實讓它更加令人印象深刻。
但R1提到的一些基準也是誤導。比較R1和o1是很棘手的,因為R1并未明確提及它們不領先的基準。雖然R1在推理性能上與之匹配,但在每個指標上都不是明顯的贏家,在許多情況下它比o1更差。
我們還沒有提到o3。o3的能力顯著高于R1或o1。事實上,OpenAI最近分享了o3的結果,基準擴展是垂直的。“深度學習遇到了瓶頸”,但類型不同。

4.谷歌的推理模型和R1一樣好
雖然DeepSeek R1被瘋狂炒作,但一個月前,一家市值2.5萬億美元的美國公司發布了一款更便宜的推理模型:谷歌的Gemini Flash 2.0 Thinking。這款模型可以使用,并且比R1便宜得多。即使通過API為模型提供了更大的上下文長度。
在已報道的基準測試中,谷歌的Flash 2.0 Thinking擊敗了DeepSeek R1,盡管基準測試并不能說明全部情況。谷歌只發布了3個基準測試,所以這還不完整。
盡管如此,我們認為谷歌的模式是穩健的,在許多方面與DeepSeek R1抗衡,但沒有受到任何炒作。這可能是因為谷歌的營銷策略乏善可陳和用戶體驗差,但R1是一個中國人的驚喜。
需要明確的是,這些都不會影響DeepSeek的顯著成就。DeepSeek作為一家快速發展、資金充足、聰明且專注的初創公司的結構,正是它擊敗Meta等巨頭的原因。在發布推理模型時,這是值得稱贊的。
五、技術成就
DeepSeek破解了代碼并解鎖了領先實驗室尚未實現的創新。我們預計DeepSeek發布的任何改進幾乎會立即被西方實驗室效仿。
這些改進是什么?大多數架構成就都與DeepSeek V3相關,這也是R1的基礎模型。讓我們詳細介紹這些創新。
1.訓練(前期和后期)
DeepSeek V3在以前從未見過的規模上使用了多標記預測(MTP),這些是附加的注意力模塊,用于預測接下來的幾個標記,而不是單個標記。這在訓練期間提高了模型性能,并在推理期間可以丟棄。這是一個算法創新的例子,使性能在更低的計算量下得到改善。
還有一些額外的考慮因素,比如在訓練中提高FP8(8位浮點格式)的準確性,但美國領先的實驗室已經進行了一段時間的FP8訓練。
DeepSeek v3 也是專家模型的混合體,這是一個由許多其他小型專家組成的大模型,這些專家專門從事不同的事情。MoE(專家混合)模型面臨的一個難題是如何確定哪個標記會到達哪個子模型或“專家”。DeepSeek 實現了一個“路由網絡”,以一種平衡的方式將標記路由到正確的專家,而不影響模型性能。
這意味著路由非常高效,在訓練每個標記時,相對于模型的整體規模,只會改變一些參數。這增加了訓練效率和推理成本。
盡管有人擔心專家混合(MoE)效率的提高可能會減少投資,但達里奧表明,更強大的人工智能模型的經濟效益是如此巨大,以至于任何成本節約都會迅速重新投資于構建更大的模型。
MoE(專家混合)的效率提高不會減少整體投資,而是將加速AI的擴展努力。這些公司專注于將模型擴展到更多的計算資源,并在算法上提高它們的效率。
在DeepSeek R1方面,它從擁有一個穩健的基礎模型(v3)中受益匪淺。這部分歸功于強化學習(RL)。RL有兩個重點:格式化(以確保它提供連貫的輸出)以及有用性和無害性(以確保模型有用)。推理能力在對合成數據集進行微調時顯現出來。這就是O1所發生的事情。
請注意,在R1論文中沒有提到計算量,這是因為提到使用了多少計算量會表明他們擁有的GPU比他們的敘述所暗示的要多。如此規模的RL(強化學習)需要大量的計算量,特別是生成合成數據。
此外,DeepSeek使用的一部分數據似乎來自OpenAI的模型,我們認為這將對從輸出數據提取政策產生影響。這在服務條款中已經是非法的,但未來的新趨勢可能是采用某種形式的KYC(了解你的客戶)來阻止提取。
說到蒸餾, DeepSeek R1論文中最有趣的部分可能是能夠通過微調推理模型的輸出,將非推理的小型模型轉化為推理模型。數據集整理包含總共80萬個樣本,現在任何人都可以使用R1的CoT輸出創建自己的數據集,并在這些輸出的幫助下創建推理模型。我們可能會看到更多的小型模型展示推理能力,從而提高小型模型的性能。
2.多頭潛在注意(MLA)
MLA是一項關鍵的創新,顯著降低了DeepSeek的推理價格。原因是MLA將每個查詢所需的KV緩存量(指在大模型推理過程中,鍵值緩存KV Cache所占用的內存大小)減少了約93.3%。
與標準注意力相比,KV緩存是變換器模型中的一種內存機制,用于存儲表示對話上下文的數據,從而減少不必要的計算。
正如在我們的縮放法則文章中所討論的,KV緩存會隨著對話上下文的增長而增長,并產生相當大的內存約束。大幅減少每個查詢所需的KV緩存量,會減少每個查詢所需要的硬件量,從而降低成本。
然而,我們認為DeepSeek是在以成本為代價提供推理以獲取市場份額,而實際上并沒有賺到任何錢。谷歌Gemini Flash 2 Thinking仍然更便宜,谷歌不太可能以成本價提供這種產品。MLA特別吸引了許多美國領先實驗室的目光。MLA在DeepSeek V2中發布,該版本于2024年5月發布。