亚洲一区图片,青青青国产在线,国产色婷婷精品综合在线观看,色综合天天,亚洲福利视频一区二区三区,国产在线视频专区,午夜精品区

首頁 > 產(chǎn)業(yè)市場(chǎng) > 即時(shí)新聞

梁文鋒的擔(dān)子更重了

2026-05-07 09:07 來源：中國企業(yè)家

查看余下全文

首頁 > 產(chǎn)業(yè)市場(chǎng) > 即時(shí)新聞

梁文鋒的擔(dān)子更重了

2026年05月07日 09:07 來源：中國企業(yè)家

[字號(hào) 大中小]

梁文鋒用V4打破質(zhì)疑，但Coding、to B商業(yè)化、人才爭(zhēng)奪，DeepSeek還有硬仗要打。

文｜《中國企業(yè)家》記者閆俊文見習(xí)編輯｜李原編輯｜何伊凡

DeepSeek-V4上線幾日，圍繞它的討論仍未停止。梁文鋒用V4的強(qiáng)勢(shì)發(fā)布，回?fù)袅送饨鐚?duì)于DeepSeek迭代緩慢的質(zhì)疑。

從效果來看，V4參數(shù)放大明顯。其擁有1M（百萬字）超長上下文，分為DeepSeek-V4-Pro和Flash兩個(gè)版本。其中，Pro版本模型參數(shù)規(guī)模達(dá)到1.6T，比V3大出兩倍，在開源陣營位列最高梯隊(duì)，向OpenAI和谷歌看齊。

大參數(shù)版本也標(biāo)志著，DeepSeek正在放棄“小而美”路線，轉(zhuǎn)而追求“參數(shù)暴力美學(xué)”與稀疏架構(gòu)效率并行。

更重要的突破來自于國產(chǎn)算力適配。DeepSeek將華為昇騰和英偉達(dá)共同寫進(jìn)技術(shù)報(bào)告，在英偉達(dá)GPU和華為昇騰NPU平臺(tái)上均驗(yàn)證了細(xì)粒度專家并行方案。在昇騰平臺(tái)上，V4實(shí)現(xiàn)了1.50至1.73倍的推理加速，使得V4成為全球首個(gè)在國產(chǎn)算力底座上完成訓(xùn)練與推理驗(yàn)證的萬億參數(shù)級(jí)模型。

在這背后，DeepSeek面臨的模型適配和上下游產(chǎn)業(yè)鏈，工作量之龐大、艱巨，被千芯科技董事長陳巍形容為“爬雪山、過草地”。這也不免讓DeepSeek難以將全部精力，放在模型的性能優(yōu)化上。

但這場(chǎng)勝利意味著什么，市場(chǎng)情緒給出了有力證明。4月24日當(dāng)天，寒武紀(jì)、摩爾線程、沐曦等國產(chǎn)芯片公司收盤價(jià)上漲2%至7%不等，并同時(shí)宣布，當(dāng)天全量適配V4模型。

發(fā)布同時(shí)，DeepSeek的價(jià)格閃電戰(zhàn)也同步上演。

《中國企業(yè)家》獲悉，DeepSeek近日推出DeepSeek-V4-Pro模型API限時(shí)2.5折優(yōu)惠，活動(dòng)截至2026年5月31日。優(yōu)惠后，該模型輸入價(jià)格降至0.025元（緩存命中）、3元（未命中），輸出6元，較原價(jià)1元、12元、24元大幅下調(diào)，已接近Flash版本水平。

DeepSeek稱，受高端算力限制，當(dāng)前Pro版服務(wù)吞吐有限，預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后，價(jià)格還將進(jìn)一步下調(diào)。

不過需要注意的是，在模型廠商正掀起“Token漲價(jià)潮”的背景下，DeepSeek逆勢(shì)而行，一方面在于其素以“價(jià)格殺手”自居，算力能力和供給資源充足——但另一個(gè)可能性是：用戶熱情不足。

《中國企業(yè)家》觀察到：在4月24日、25日上線兩天，DeepSeek的API服務(wù)和網(wǎng)頁對(duì)話服務(wù)均很穩(wěn)定，沒有發(fā)生“擁堵”的事故報(bào)告。市場(chǎng)總體對(duì)DeepSeek的反饋體驗(yàn)，也比較“冷靜”。

而V4的“難產(chǎn)”本身，是這家明星創(chuàng)業(yè)公司正在面對(duì)的多重壓力：核心人才被競(jìng)爭(zhēng)對(duì)手爭(zhēng)搶、國產(chǎn)算力適配還面臨漫長攻堅(jiān)、與模型大廠和創(chuàng)企圍繞代碼能力需要貼身肉搏，以及懸而未決的融資傳聞。

DeepSeek的優(yōu)勢(shì)依然清晰：技術(shù)頂尖、開源心智強(qiáng)、性價(jià)比突出、國產(chǎn)芯片適配領(lǐng)先、開發(fā)者生態(tài)基礎(chǔ)好。但其短板同樣現(xiàn)實(shí)：to B大客戶交付經(jīng)驗(yàn)不足、場(chǎng)景化解決方案不夠豐富、組織規(guī)模與巨頭差距明顯、商業(yè)化仍處于爬坡期。

如今大模型已不再是單一維度的天才或技術(shù)方面的競(jìng)賽，而是一家公司資金、資源、人才、組織、戰(zhàn)略的集團(tuán)作戰(zhàn)，這也需要DeepSeek不斷在技術(shù)理想和嚴(yán)峻現(xiàn)實(shí)之間做出選擇。

實(shí)測(cè)V4：能力很強(qiáng)，Coding仍需突破

一直以來，DeepSeek的創(chuàng)新方法論是，通過底層架構(gòu)創(chuàng)新，實(shí)現(xiàn)極致成本控制，壓榨每一個(gè)Token的潛力。

這一次，V4在架構(gòu)上，DeepSeek開創(chuàng)了全新的注意力機(jī)制——“CSA（壓縮稀疏注意力）+HCA（重度壓縮注意力）”的混合注意力架構(gòu)。這一創(chuàng)新主要目標(biāo)是對(duì)Token進(jìn)行條目化的極致壓縮，以進(jìn)一步降低對(duì)計(jì)算和顯存的需求。

技術(shù)報(bào)告顯示，在100萬Token的上下文設(shè)置下，與DeepSeek-V3.2相比，DeepSeek-V4-Pro僅需27%的單Token推理FLOPs（?浮點(diǎn)運(yùn)算數(shù)?）和10%的KV緩存。

一位專家對(duì)《中國企業(yè)家》指出，V4在訓(xùn)練和推理中采用“FP4+FP8”混合精度，而非業(yè)界通用的FP32標(biāo)準(zhǔn)精度格式。DeepSeek固然是為了實(shí)現(xiàn)更快的計(jì)算速度、更低的緩存需求，但也為此犧牲了準(zhǔn)確率。

特別是當(dāng)模型參數(shù)規(guī)模達(dá)到1.6萬億時(shí)，這種“壓榨”是否仍能維持輸出質(zhì)量的穩(wěn)定性，也成為了V4在實(shí)際應(yīng)用中的最大考驗(yàn)。

在模型穩(wěn)定性上，《中國企業(yè)家》將V4的技術(shù)報(bào)告丟給了DeepSeek，要求V4進(jìn)行翻譯并給出關(guān)鍵指標(biāo)的解讀。在專家模式下，上傳文件花了15秒，全文翻譯大概耗時(shí)20分鐘。雖然從長文本理解、信息抽取、邏輯梳理能力上，V4表現(xiàn)不錯(cuò)，但也出現(xiàn)了丟失圖片的問題。

此外，隨著代碼能力正成為頂級(jí)模型的必爭(zhēng)之地，DeepSeek也正在遭遇強(qiáng)力阻擊。

在V4技術(shù)報(bào)告的Coding相關(guān)測(cè)試集里，出現(xiàn)了多處明顯的數(shù)據(jù)空白，顯示缺少與月之暗面K2.6、智譜GLM-5.1的直接對(duì)標(biāo)結(jié)果。DeepSeek給出的解釋是：“由于K2.6和GLM-5.1的API太忙，無法回應(yīng)查詢?！?/p>

這句略帶無奈的表述，也折射出了大模型戰(zhàn)局的殘酷：過去半年，月之暗面與智譜均將代碼能力、Coding Agent、工程化能力作為戰(zhàn)略制高點(diǎn)，API調(diào)用量與企業(yè)接入量暴漲。

盡管DeepSeek強(qiáng)調(diào)，V4-Pro在代碼智能體任務(wù)上已與K2.6、GLM-5.1達(dá)到可比水平，但行業(yè)普遍認(rèn)為，代碼能力、工具穩(wěn)定性、工程化魯棒性將直接決定MaaS收入、開發(fā)者生態(tài)黏性與大客戶付費(fèi)意愿。這也意味著，DeepSeek下一輪攻堅(jiān)的核心戰(zhàn)場(chǎng)，必須清晰指向代碼與Agent。

關(guān)鍵的權(quán)衡

雖然V4的表現(xiàn)有不盡如人意的地方，但它對(duì)全行業(yè)的標(biāo)志性意義，顯然更為重大。

上海財(cái)經(jīng)大學(xué)特聘教授、FutureLabs未來實(shí)驗(yàn)室首席專家胡延平對(duì)《中國企業(yè)家》說：V4預(yù)覽版可以說不負(fù)各方期待，也成功在國產(chǎn)芯片適配的前提下，通過對(duì)注意力機(jī)制的改進(jìn)，降低了計(jì)算和緩存開銷，提升了效率。

過去近5個(gè)月，在外界對(duì)DeepSeek“迭代放緩”的持續(xù)質(zhì)疑中，業(yè)內(nèi)卻清楚：DeepSeek的攻堅(jiān)，并非單純?cè)谡{(diào)優(yōu)模型效果，而是要完成一次從英偉達(dá)CUDA生態(tài)，向國產(chǎn)芯片“昇騰NPU”等生態(tài)的全棧遷移——這是一場(chǎng)沒有硝煙的硬仗。

多位底層架構(gòu)專家向《中國企業(yè)家》證實(shí)，超大模型在國產(chǎn)芯片上的遷移，難度遠(yuǎn)超想象。

一家AI Infra初創(chuàng)公司CEO曾告訴《中國企業(yè)家》：適配新生態(tài)架構(gòu)，會(huì)面臨算子缺失，大量自定義算子需重新開發(fā)的問題，編譯器也會(huì)經(jīng)常出bug，訓(xùn)練中途易崩潰?！跋喈?dāng)于我造了一個(gè)賽車，理論速度有150公里/小時(shí)，但我可能要跑100次才能跑出一個(gè)這樣的速度，它不是那么穩(wěn)定?！?/p>

《中國企業(yè)家》綜合各方信息來看，DeepSeek為適配國產(chǎn)算力，做出了一系列關(guān)鍵權(quán)衡：采用更低精度混合精度（FP4+FP8），降低顯存壓力與計(jì)算復(fù)雜度；強(qiáng)化稀疏注意力與KV緩存壓縮，減少芯片間通信量；優(yōu)化MoE負(fù)載均衡策略，提升在非均勻芯片集群上的穩(wěn)定性；放棄了部分極端基準(zhǔn)刷分，優(yōu)先保證長上下文、多輪、Agent場(chǎng)景的魯棒性。

陳巍將DeepSeek對(duì)華為昇騰的適配，比作“爬雪山、過草地”的事情。這個(gè)工作量非常大，會(huì)讓DeepSeek難以將全部精力，放在模型的性能優(yōu)化上。

對(duì)于DeepSeek來說，其通信庫、集合通信、分布式策略需深度重構(gòu)；萬億參數(shù)MoE模型對(duì)集群穩(wěn)定性、顯存帶寬、網(wǎng)絡(luò)延遲要求近乎苛刻。這都會(huì)導(dǎo)致，V4開發(fā)十分艱難。

從根本上說，這是涉及到整個(gè)產(chǎn)業(yè)鏈上下游優(yōu)化、水準(zhǔn)提升的過程，比如芯片良率、芯片性能，大模型的整體Infra部署和優(yōu)化等，是一個(gè)水漲船高的過程。

胡延平表示，超大參數(shù)的大模型開始訓(xùn)練之后，需要集群里的每一張卡都要保持最佳狀態(tài)，計(jì)算集群協(xié)同工作的要求度很高，除了算力卡的穩(wěn)定，還要求顯存帶寬、連接與網(wǎng)絡(luò)等各個(gè)方面跟得上。訓(xùn)練任務(wù)動(dòng)輒持續(xù)一兩個(gè)月，任何一張卡、一條鏈路不穩(wěn)，都可能導(dǎo)致整體任務(wù)失敗。

不過，DeepSeek走出了最艱難的全棧遷移第一步后，已經(jīng)證明中國大模型的自主可控，已經(jīng)在成為可落地、可商用、可規(guī)?；默F(xiàn)實(shí)。隨著下半年，昇騰950批量交付，V4-Pro的吞吐能力還將大幅提升。

增長暗戰(zhàn)：人才、資本、競(jìng)爭(zhēng)三座大山

V4的強(qiáng)勢(shì)發(fā)布，暫時(shí)平息了外界對(duì)DeepSeek技術(shù)能力的質(zhì)疑，但更多的挑戰(zhàn)，也擺在了梁文鋒面前。人才流失、資本選擇、行業(yè)內(nèi)卷、商業(yè)化壓力，都在把這家以技術(shù)理想主義著稱的公司，拖入集團(tuán)作戰(zhàn)。

V4技術(shù)報(bào)告顯示，本次參與作者共270人，名單中包括梁文鋒——但一個(gè)不容忽視的細(xì)節(jié)是：過去5個(gè)月，已經(jīng)有10位署名作者離開了DeepSeek。

其中最受關(guān)注的，是代碼與推理核心負(fù)責(zé)人郭達(dá)雅。據(jù)《晚點(diǎn)LatePost》報(bào)道，郭達(dá)雅以億元年薪，加盟了字節(jié)跳動(dòng)。他深度參與了DeepSeekV3、R1、Coder、Math等關(guān)鍵模型研發(fā)，是代碼能力、推理架構(gòu)、工程化的核心貢獻(xiàn)者。

基座架構(gòu)、MoE分布式、推理引擎、長上下文、代碼Agent等關(guān)鍵崗位，都高度依賴核心人員的判斷與經(jīng)驗(yàn)；骨干流失不僅影響研發(fā)節(jié)奏，更可能帶來技術(shù)路線、架構(gòu)偏好、工程文化的波動(dòng)。

梁文鋒能在人員變動(dòng)的情況下，如期推出V4并實(shí)現(xiàn)1.6T的大參數(shù)更新，說明其已建立了可復(fù)制、可擴(kuò)展、不依賴單一個(gè)人的工程化體系。但如何留住核心人才、激勵(lì)早期成員、穩(wěn)定團(tuán)隊(duì)軍心，仍是DeepSeek必須解決的長期問題。

V4發(fā)布前后，市場(chǎng)也再次傳出重磅消息：DeepSeek計(jì)劃開啟新一輪融資，估值約200億美元，阿里、騰訊等都被列為潛在投資方。

胡延平直言：“DeepSeek應(yīng)該融資，甚至上市。模型上限提升，來自用戶反饋、參數(shù)規(guī)模、Agent網(wǎng)絡(luò)，這些都需要巨大投入。”

更重要的是，整個(gè)行業(yè)正在從模型競(jìng)賽轉(zhuǎn)向Token工廠競(jìng)賽。DeepSeek選擇降價(jià)、擴(kuò)參數(shù)，都是在為Token時(shí)代做準(zhǔn)備——而Token工廠，也需要更巨額的資金投入。

對(duì)于梁文鋒來說，更深層的命題剛剛開始：如何把模型優(yōu)勢(shì)，轉(zhuǎn)化為持續(xù)、高毛利、可規(guī)?；氖杖?？如何建立不依賴個(gè)人的技術(shù)迭代機(jī)制與人才激勵(lì)體系？如何在技術(shù)探索與商業(yè)交付之間保持平衡？如何從“模型公司”升級(jí)為“平臺(tái)生態(tài)公司”？

梁文鋒已經(jīng)用V4回應(yīng)了一切質(zhì)疑，DeepSeek仍在最強(qiáng)玩家序列。但未來真正的決戰(zhàn)，才剛剛開始。

(責(zé)任編輯：劉芃)