2025年2月24-28日,巨頭加碼DeepSeek陸續(xù)開源FlashMLA、泡沫DeepEP、巨頭加碼DeepGEMM、泡沫3FS項目,巨頭加碼以及DualPipe、泡沫EPLB等代碼庫,巨頭加碼并在其“開源周”收尾時,泡沫又放了一枚深水炸彈。巨頭加碼
3月1日,泡沫DeepSeek發(fā)布《DeepSeek-V3/R1推理系統(tǒng)概覽》,巨頭加碼公開其模型理論成本利潤率可達(dá)545%。泡沫
DeepSeek-V3/R1推理系統(tǒng)的巨頭加碼優(yōu)化目標(biāo)是更大的吞吐、更低的泡沫延遲。為此,巨頭加碼DeepSeek使用大規(guī)模跨節(jié)點(diǎn)專家并行(Expert Parallelism/EP):首先EP使得batch size增加,從而提高GPU矩陣乘法的效率,提高吞吐;其次EP使得專家分散在不同的GPU上,每個GPU只需對應(yīng)很少的專家(因此訪存的需求更少),從而降低延遲。
在2月27日12:00-2月28日12:00的24小時內(nèi),DeepSeek V3和R1推理服務(wù)占用節(jié)點(diǎn)的總和峰值為278個節(jié)點(diǎn),平均