大模型性價比之王來了！訓練2個月、花費558萬美元性能匹敵GPT-4o

熱點 2024年12月27日 15:20 33 admin

　　來源：財聯社

　　《科創板日報》12月27日訊（編輯宋子喬） 12月26日晚，幻方量化宣布，全新系列模型DeepSeek-V3上線并同步開源，API服務已同步更新，接口配置無需改動。

　　其上一代模型DeepSeek-V2.5于9月6日正式發布，迭代速速不可謂不快。

　　據介紹，DeepSeek-V3為自研MoE模型，生成速度相比V2.5模型實現了3倍的提升，但暫不支持多模態輸入輸出。（小K注：MoE模型全稱Mixture of Experts，混合專家模型，是一種機器學習架構，通過組合多個專家模型，在處理復雜任務時顯著提高效率和精度）。

參數和性能：DeepSeek-V3擁有6710億參數，其中激活參數為370億，在14.8萬億token上進行了預訓練。

生成速度：相比V2.5版本，DeepSeek-V3的生成速度提升至3倍，每秒吞吐量高達60 token。

開源和可用性：DeepSeek-V3完全開源。

多語言處理能力：雖然當前版本暫不支持多模態輸入輸出，但在多語言處理方面表現出色，尤其在算法代碼和數學方面。

大模型性價比之王來了！訓練2個月、花費558萬美元性能匹敵GPT-4o

　　另外，在多項基準測試中，DeepSeek-V3的成績超越了Qwen2.5-72 B和Llama-3.1-405 B等其他開源模型，并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

大模型性價比之王來了！訓練2個月、花費558萬美元性能匹敵GPT-4o

　　其中，在數學能力方面，DeepSeek-V3大幅超過了所有開源閉源模型。（小K注：以2024年美國數學競賽和全國高中數學聯賽題庫進行測試）

大模型性價比之王來了！訓練2個月、花費558萬美元性能匹敵GPT-4o

　　值得注意的是，幻方量化在已開源的論文中強調其訓練成本極低——通過對算法、框架和硬件的優化協同設計，假設H800GPU的租用價格為每塊GPU2美元/小時，DeepSeek-V3的全部訓練成本總計僅為557.6萬美元（注：該成本僅包括DeepSeek-V3的正式訓練，不包括與先前在架構、算法或數據上的研究和消融實驗相關的成本）：

大模型性價比之王來了！訓練2個月、花費558萬美元性能匹敵GPT-4o

　　在預訓練階段，模型每訓練1萬億token僅需要180K個GPU小時，即在配備2048個GPU的集群上只需3.7天，也就是說，該階段團隊使用2048塊H800 GPU訓練了模型不到2個月便達成目標；

　　另外，加上上下文長度scaling所需的119K GPU小時和后訓練的5K GPU小時，DeepSeek-V3完整訓練僅消耗2.788M個GPU小時。

大模型性價比之王來了！訓練2個月、花費558萬美元性能匹敵GPT-4o

　　技術大牛Andrej Karpathy發文稱贊道：作為參考，要達到這種級別的能力，通常需要約1.6萬個GPU的計算集群。不僅如此，當前業界正在部署的集群規模甚至已經達到了10萬個GPU。比如，Llama 3 405B消耗了3080萬GPU小時，而看起來更強大的DeepSeek-V3卻只用了280萬GPU小時（計算量減少了約11倍）。（小K注：Karpathy是OpenAI的聯合創始人之一，并且曾擔任特斯拉的AI總監）

大模型性價比之王來了！訓練2個月、花費558萬美元性能匹敵GPT-4o

　　Stability AI前CEO表示，以每秒60個token（相當于人類閱讀速度5倍）的速度全天候運行DeepSeek-V3，每天僅需要2美元。

　　API服務定價上調2倍有余

　　DeepSeek-V3的發布標志著DeepSeek AI在自然語言處理和AI領域的又一重要進步，預計將為開發者、企業和研究人員提供強大的工具和資源。其應用場景主要包括：

聊天和編碼場景：為開發者設計，能夠理解和生成代碼，提高編程效率。

多語言自動翻譯：支持多達20種語言的實時翻譯和語音識別，適合需要處理多種語言內容的企業用戶。

圖像生成和AI繪畫：整合視覺理解技術，允許用戶通過簡單的文本描述生成高質量圖像，豐富應用場景和用戶創意表達的自由度。

　　性能更強、速度更快的DeepSeek-V3上線，幻方量化給出的定價是多少呢？新版本模型價格比上一代貴了2倍有余。

　　幻方量化表示DeepSeek-V3的API服務定價將上調為每百萬輸入tokens 0.5元（緩存命中）/2元（緩存未命中），每百萬輸出tokens 8元，按緩存未命中的輸入價格計，加總成本是10元人民幣。

　　上一代模型Deepseek-V2.5的價格是，輸入：0.14美元/百萬Token，輸出為：0.28美元/百萬Token，加總成本是0.14+0.28=0.42美元，大約3元人民幣。

　　這里的Token是大模型在處理數據時的最小單元，一般而言，100萬Token相當于70萬-100萬英文單詞，或接近100萬中文漢字。列夫?托爾斯泰的名著《戰爭與和平》的英文版大約是大約有1200-1500頁、58萬英文單詞，把它翻譯為中文，大約有100-130萬字，讓DeepSeek-V3讀完全文只需要2元左右。

　　盡管提價，但與同類型模型相比，DeepSeek-V3依舊極具性價比。比如OpenAI的GPT 4o定價相當高，輸入：5美元/百萬Token，輸出：15美元/百萬Token，加總成本是20美元，約合人民幣140元。

大模型性價比之王來了！訓練2個月、花費558萬美元性能匹敵GPT-4o

標簽：匹敵

車輛加裝行李架對油耗有影響嗎？

歡迎使用Z-BlogPHP！

發表評論

国产午夜亚洲精品午夜鲁丝片,太粗要好深好爽要到了,国产免国产免费,人人澡人人妻人人爽人人蜜桃麻豆

大模型性價比之王來了！訓練2個月、花費558萬美元性能匹敵GPT-4o

車輛加裝行李架對油耗有影響嗎？

歡迎使用Z-BlogPHP！

標簽列表

熱門文章

友情鏈接

国产午夜亚洲精品午夜鲁丝片,太粗要好深好爽要到了,国产免国产免费,人人澡人人妻人人爽人人蜜桃麻豆

大模型性價比之王來了！訓練2個月、花費558萬美元 性能匹敵GPT-4o

車輛加裝行李架對油耗有影響嗎？

歡迎使用Z-BlogPHP！

標簽列表

熱門文章

友情鏈接

大模型性價比之王來了！訓練2個月、花費558萬美元性能匹敵GPT-4o