亚洲一区图片,青青青国产在线,国产色婷婷精品综合在线观看,色综合天天,亚洲福利视频一区二区三区,国产在线视频专区,午夜精品区

首頁 > 產(chǎn)業(yè)市場(chǎng) > 即時(shí)新聞

梁文鋒的擔(dān)子更重了

2026-05-07 09:07 來源:中國企業(yè)家
查看余下全文
首頁 > 產(chǎn)業(yè)市場(chǎng) > 即時(shí)新聞

梁文鋒的擔(dān)子更重了

2026年05月07日 09:07 來源:中國企業(yè)家
[字號(hào) ]

梁文鋒用V4打破質(zhì)疑,但Coding、to B商業(yè)化、人才爭(zhēng)奪,DeepSeek還有硬仗要打。

文|《中國企業(yè)家》記者 閆俊文見習(xí)編輯|李原 編輯|何伊凡

DeepSeek-V4上線幾日,圍繞它的討論仍未停止。梁文鋒用V4的強(qiáng)勢(shì)發(fā)布,回?fù)袅送饨鐚?duì)于DeepSeek迭代緩慢的質(zhì)疑。

從效果來看,V4參數(shù)放大明顯。其擁有1M(百萬字)超長上下文,分為DeepSeek-V4-Pro和Flash兩個(gè)版本。其中,Pro版本模型參數(shù)規(guī)模達(dá)到1.6T,比V3大出兩倍,在開源陣營位列最高梯隊(duì),向OpenAI和谷歌看齊。

大參數(shù)版本也標(biāo)志著,DeepSeek正在放棄“小而美”路線,轉(zhuǎn)而追求“參數(shù)暴力美學(xué)”與稀疏架構(gòu)效率并行。

更重要的突破來自于國產(chǎn)算力適配。DeepSeek將華為昇騰和英偉達(dá)共同寫進(jìn)技術(shù)報(bào)告,在英偉達(dá)GPU和華為昇騰NPU平臺(tái)上均驗(yàn)證了細(xì)粒度專家并行方案。在昇騰平臺(tái)上,V4實(shí)現(xiàn)了1.50至1.73倍的推理加速,使得V4成為全球首個(gè)在國產(chǎn)算力底座上完成訓(xùn)練與推理驗(yàn)證的萬億參數(shù)級(jí)模型。

在這背后,DeepSeek面臨的模型適配和上下游產(chǎn)業(yè)鏈,工作量之龐大、艱巨,被千芯科技董事長陳巍形容為“爬雪山、過草地”。這也不免讓DeepSeek難以將全部精力,放在模型的性能優(yōu)化上。

但這場(chǎng)勝利意味著什么,市場(chǎng)情緒給出了有力證明。4月24日當(dāng)天,寒武紀(jì)、摩爾線程、沐曦等國產(chǎn)芯片公司收盤價(jià)上漲2%至7%不等,并同時(shí)宣布,當(dāng)天全量適配V4模型。

發(fā)布同時(shí),DeepSeek的價(jià)格閃電戰(zhàn)也同步上演。

《中國企業(yè)家》獲悉,DeepSeek近日推出DeepSeek-V4-Pro模型API限時(shí)2.5折優(yōu)惠,活動(dòng)截至2026年5月31日。優(yōu)惠后,該模型輸入價(jià)格降至0.025元(緩存命中)、3元(未命中),輸出6元,較原價(jià)1元、12元、24元大幅下調(diào),已接近Flash版本水平。

DeepSeek稱,受高端算力限制,當(dāng)前Pro版服務(wù)吞吐有限,預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后,價(jià)格還將進(jìn)一步下調(diào)。

不過需要注意的是,在模型廠商正掀起“Token漲價(jià)潮”的背景下,DeepSeek逆勢(shì)而行,一方面在于其素以“價(jià)格殺手”自居,算力能力和供給資源充足——但另一個(gè)可能性是:用戶熱情不足。

《中國企業(yè)家》觀察到:在4月24日、25日上線兩天,DeepSeek的API服務(wù)和網(wǎng)頁對(duì)話服務(wù)均很穩(wěn)定,沒有發(fā)生“擁堵”的事故報(bào)告。市場(chǎng)總體對(duì)DeepSeek的反饋體驗(yàn),也比較“冷靜”。

而V4的“難產(chǎn)”本身,是這家明星創(chuàng)業(yè)公司正在面對(duì)的多重壓力:核心人才被競(jìng)爭(zhēng)對(duì)手爭(zhēng)搶、國產(chǎn)算力適配還面臨漫長攻堅(jiān)、與模型大廠和創(chuàng)企圍繞代碼能力需要貼身肉搏,以及懸而未決的融資傳聞。

DeepSeek的優(yōu)勢(shì)依然清晰:技術(shù)頂尖、開源心智強(qiáng)、性價(jià)比突出、國產(chǎn)芯片適配領(lǐng)先、開發(fā)者生態(tài)基礎(chǔ)好。但其短板同樣現(xiàn)實(shí):to B大客戶交付經(jīng)驗(yàn)不足、場(chǎng)景化解決方案不夠豐富、組織規(guī)模與巨頭差距明顯、商業(yè)化仍處于爬坡期。

如今大模型已不再是單一維度的天才或技術(shù)方面的競(jìng)賽,而是一家公司資金、資源、人才、組織、戰(zhàn)略的集團(tuán)作戰(zhàn),這也需要DeepSeek不斷在技術(shù)理想和嚴(yán)峻現(xiàn)實(shí)之間做出選擇。

實(shí)測(cè)V4:能力很強(qiáng),Coding仍需突破

一直以來,DeepSeek的創(chuàng)新方法論是,通過底層架構(gòu)創(chuàng)新,實(shí)現(xiàn)極致成本控制,壓榨每一個(gè)Token的潛力。

這一次,V4在架構(gòu)上,DeepSeek開創(chuàng)了全新的注意力機(jī)制——“CSA(壓縮稀疏注意力)+HCA(重度壓縮注意力)”的混合注意力架構(gòu)。這一創(chuàng)新主要目標(biāo)是對(duì)Token進(jìn)行條目化的極致壓縮,以進(jìn)一步降低對(duì)計(jì)算和顯存的需求。

技術(shù)報(bào)告顯示,在100萬Token的上下文設(shè)置下,與DeepSeek-V3.2相比,DeepSeek-V4-Pro僅需27%的單Token推理FLOPs(?浮點(diǎn)運(yùn)算數(shù)?)和10%的KV緩存。

一位專家對(duì)《中國企業(yè)家》指出,V4在訓(xùn)練和推理中采用“FP4+FP8”混合精度,而非業(yè)界通用的FP32標(biāo)準(zhǔn)精度格式。DeepSeek固然是為了實(shí)現(xiàn)更快的計(jì)算速度、更低的緩存需求,但也為此犧牲了準(zhǔn)確率。

特別是當(dāng)模型參數(shù)規(guī)模達(dá)到1.6萬億時(shí),這種“壓榨”是否仍能維持輸出質(zhì)量的穩(wěn)定性,也成為了V4在實(shí)際應(yīng)用中的最大考驗(yàn)。

在模型穩(wěn)定性上,《中國企業(yè)家》將V4的技術(shù)報(bào)告丟給了DeepSeek,要求V4進(jìn)行翻譯并給出關(guān)鍵指標(biāo)的解讀。在專家模式下,上傳文件花了15秒,全文翻譯大概耗時(shí)20分鐘。雖然從長文本理解、信息抽取、邏輯梳理能力上,V4表現(xiàn)不錯(cuò),但也出現(xiàn)了丟失圖片的問題。

此外,隨著代碼能力正成為頂級(jí)模型的必爭(zhēng)之地,DeepSeek也正在遭遇強(qiáng)力阻擊。

在V4技術(shù)報(bào)告的Coding相關(guān)測(cè)試集里,出現(xiàn)了多處明顯的數(shù)據(jù)空白,顯示缺少與月之暗面K2.6、智譜GLM-5.1的直接對(duì)標(biāo)結(jié)果。DeepSeek給出的解釋是:“由于K2.6和GLM-5.1的API太忙,無法回應(yīng)查詢?!?/p>

這句略帶無奈的表述,也折射出了大模型戰(zhàn)局的殘酷:過去半年,月之暗面與智譜均將代碼能力、Coding Agent、工程化能力作為戰(zhàn)略制高點(diǎn),API調(diào)用量與企業(yè)接入量暴漲。

盡管DeepSeek強(qiáng)調(diào),V4-Pro在代碼智能體任務(wù)上已與K2.6、GLM-5.1達(dá)到可比水平,但行業(yè)普遍認(rèn)為,代碼能力、工具穩(wěn)定性、工程化魯棒性將直接決定MaaS收入、開發(fā)者生態(tài)黏性與大客戶付費(fèi)意愿。這也意味著,DeepSeek下一輪攻堅(jiān)的核心戰(zhàn)場(chǎng),必須清晰指向代碼與Agent。

關(guān)鍵的權(quán)衡

雖然V4的表現(xiàn)有不盡如人意的地方,但它對(duì)全行業(yè)的標(biāo)志性意義,顯然更為重大。

上海財(cái)經(jīng)大學(xué)特聘教授、FutureLabs未來實(shí)驗(yàn)室首席專家胡延平對(duì)《中國企業(yè)家》說:V4預(yù)覽版可以說不負(fù)各方期待,也成功在國產(chǎn)芯片適配的前提下,通過對(duì)注意力機(jī)制的改進(jìn),降低了計(jì)算和緩存開銷,提升了效率。

過去近5個(gè)月,在外界對(duì)DeepSeek“迭代放緩”的持續(xù)質(zhì)疑中,業(yè)內(nèi)卻清楚:DeepSeek的攻堅(jiān),并非單純?cè)谡{(diào)優(yōu)模型效果,而是要完成一次從英偉達(dá)CUDA生態(tài),向國產(chǎn)芯片“昇騰NPU”等生態(tài)的全棧遷移——這是一場(chǎng)沒有硝煙的硬仗。

多位底層架構(gòu)專家向《中國企業(yè)家》證實(shí),超大模型在國產(chǎn)芯片上的遷移,難度遠(yuǎn)超想象。

一家AI Infra初創(chuàng)公司CEO曾告訴《中國企業(yè)家》:適配新生態(tài)架構(gòu),會(huì)面臨算子缺失,大量自定義算子需重新開發(fā)的問題,編譯器也會(huì)經(jīng)常出bug,訓(xùn)練中途易崩潰?!跋喈?dāng)于我造了一個(gè)賽車,理論速度有150公里/小時(shí),但我可能要跑100次才能跑出一個(gè)這樣的速度,它不是那么穩(wěn)定?!?/p>

《中國企業(yè)家》綜合各方信息來看,DeepSeek為適配國產(chǎn)算力,做出了一系列關(guān)鍵權(quán)衡:采用更低精度混合精度(FP4+FP8),降低顯存壓力與計(jì)算復(fù)雜度;強(qiáng)化稀疏注意力與KV緩存壓縮,減少芯片間通信量;優(yōu)化MoE負(fù)載均衡策略,提升在非均勻芯片集群上的穩(wěn)定性;放棄了部分極端基準(zhǔn)刷分,優(yōu)先保證長上下文、多輪、Agent場(chǎng)景的魯棒性。

陳巍將DeepSeek對(duì)華為昇騰的適配,比作“爬雪山、過草地”的事情。這個(gè)工作量非常大,會(huì)讓DeepSeek難以將全部精力,放在模型的性能優(yōu)化上。

對(duì)于DeepSeek來說,其通信庫、集合通信、分布式策略需深度重構(gòu);萬億參數(shù)MoE模型對(duì)集群穩(wěn)定性、顯存帶寬、網(wǎng)絡(luò)延遲要求近乎苛刻。這都會(huì)導(dǎo)致,V4開發(fā)十分艱難。

從根本上說,這是涉及到整個(gè)產(chǎn)業(yè)鏈上下游優(yōu)化、水準(zhǔn)提升的過程,比如芯片良率、芯片性能,大模型的整體Infra部署和優(yōu)化等,是一個(gè)水漲船高的過程。

胡延平表示,超大參數(shù)的大模型開始訓(xùn)練之后,需要集群里的每一張卡都要保持最佳狀態(tài),計(jì)算集群協(xié)同工作的要求度很高,除了算力卡的穩(wěn)定,還要求顯存帶寬、連接與網(wǎng)絡(luò)等各個(gè)方面跟得上。訓(xùn)練任務(wù)動(dòng)輒持續(xù)一兩個(gè)月,任何一張卡、一條鏈路不穩(wěn),都可能導(dǎo)致整體任務(wù)失敗。

不過,DeepSeek走出了最艱難的全棧遷移第一步后,已經(jīng)證明中國大模型的自主可控,已經(jīng)在成為可落地、可商用、可規(guī)?;默F(xiàn)實(shí)。隨著下半年,昇騰950批量交付,V4-Pro的吞吐能力還將大幅提升。

增長暗戰(zhàn):人才、資本、競(jìng)爭(zhēng)三座大山

V4的強(qiáng)勢(shì)發(fā)布,暫時(shí)平息了外界對(duì)DeepSeek技術(shù)能力的質(zhì)疑,但更多的挑戰(zhàn),也擺在了梁文鋒面前。人才流失、資本選擇、行業(yè)內(nèi)卷、商業(yè)化壓力,都在把這家以技術(shù)理想主義著稱的公司,拖入集團(tuán)作戰(zhàn)。

V4技術(shù)報(bào)告顯示,本次參與作者共270人,名單中包括梁文鋒——但一個(gè)不容忽視的細(xì)節(jié)是:過去5個(gè)月,已經(jīng)有10位署名作者離開了DeepSeek。

其中最受關(guān)注的,是代碼與推理核心負(fù)責(zé)人郭達(dá)雅。據(jù)《晚點(diǎn)LatePost》報(bào)道,郭達(dá)雅以億元年薪,加盟了字節(jié)跳動(dòng)。他深度參與了DeepSeekV3、R1、Coder、Math等關(guān)鍵模型研發(fā),是代碼能力、推理架構(gòu)、工程化的核心貢獻(xiàn)者。

基座架構(gòu)、MoE分布式、推理引擎、長上下文、代碼Agent等關(guān)鍵崗位,都高度依賴核心人員的判斷與經(jīng)驗(yàn);骨干流失不僅影響研發(fā)節(jié)奏,更可能帶來技術(shù)路線、架構(gòu)偏好、工程文化的波動(dòng)。

梁文鋒能在人員變動(dòng)的情況下,如期推出V4并實(shí)現(xiàn)1.6T的大參數(shù)更新,說明其已建立了可復(fù)制、可擴(kuò)展、不依賴單一個(gè)人的工程化體系。但如何留住核心人才、激勵(lì)早期成員、穩(wěn)定團(tuán)隊(duì)軍心,仍是DeepSeek必須解決的長期問題。

V4發(fā)布前后,市場(chǎng)也再次傳出重磅消息:DeepSeek計(jì)劃開啟新一輪融資,估值約200億美元,阿里、騰訊等都被列為潛在投資方。

胡延平直言:“DeepSeek應(yīng)該融資,甚至上市。模型上限提升,來自用戶反饋、參數(shù)規(guī)模、Agent網(wǎng)絡(luò),這些都需要巨大投入。”

更重要的是,整個(gè)行業(yè)正在從模型競(jìng)賽轉(zhuǎn)向Token工廠競(jìng)賽。DeepSeek選擇降價(jià)、擴(kuò)參數(shù),都是在為Token時(shí)代做準(zhǔn)備——而Token工廠,也需要更巨額的資金投入。

對(duì)于梁文鋒來說,更深層的命題剛剛開始:如何把模型優(yōu)勢(shì),轉(zhuǎn)化為持續(xù)、高毛利、可規(guī)?;氖杖??如何建立不依賴個(gè)人的技術(shù)迭代機(jī)制與人才激勵(lì)體系?如何在技術(shù)探索與商業(yè)交付之間保持平衡?如何從“模型公司”升級(jí)為“平臺(tái)生態(tài)公司”?

梁文鋒已經(jīng)用V4回應(yīng)了一切質(zhì)疑,DeepSeek仍在最強(qiáng)玩家序列。但未來真正的決戰(zhàn),才剛剛開始。

(責(zé)任編輯:劉芃)