亚洲一区图片,青青青国产在线,国产色婷婷精品综合在线观看,色综合天天,亚洲福利视频一区二区三区,国产在线视频专区,午夜精品区

首頁 > 產(chǎn)業(yè)市場(chǎng) > 即時(shí)新聞

王長(zhǎng)虎:“字節(jié)系”最猛的AI創(chuàng)業(yè)者

2026-05-22 08:19 來源:中國企業(yè)家雜志
查看余下全文
首頁 > 產(chǎn)業(yè)市場(chǎng) > 即時(shí)新聞

王長(zhǎng)虎:“字節(jié)系”最猛的AI創(chuàng)業(yè)者

2026年05月22日 08:19 來源:中國企業(yè)家雜志
[字號(hào) ]

AI視頻生成的熱戰(zhàn),比想象中來得更早。

字節(jié)跳動(dòng)的Seedance 2.0在2月爆火,其性能直接改變了AI漫劇產(chǎn)業(yè)發(fā)展走向。緊隨其后,阿里的HappyHorse(歡樂馬)開啟了API內(nèi)測(cè)。據(jù)報(bào)道,快手旗下可靈也正以200億美元估值謀求獨(dú)立融資,ARR(年度經(jīng)常性收入)已達(dá)到5億美元。

有巨頭集結(jié)資源,也有玩家被淘汰出局。今年3月,OpenAI旗下的Sora被關(guān)停,原因被歸咎于OpenAI需要聚攏資源和注意力。這也不免讓文生視頻能否跑通商業(yè)模式,被打上問號(hào)。

不過,AI視頻生成公司愛詩科技創(chuàng)始人兼CEO王長(zhǎng)虎仍樂觀表示,目前視頻生成的機(jī)會(huì)大于挑戰(zhàn)?!埃ㄈ绻┟總€(gè)時(shí)代只有(像抖音、快手)一兩個(gè)產(chǎn)品,只有幾十億用戶的產(chǎn)品才有生存空間,那就太枯燥了?!?/p>

王長(zhǎng)虎曾任字節(jié)跳動(dòng)視覺技術(shù)負(fù)責(zé)人,搭建了字節(jié)跳動(dòng)視覺算法平臺(tái)和業(yè)務(wù)中臺(tái),并主導(dǎo)了字節(jié)視覺大模型從0到1的建設(shè)。2023年創(chuàng)業(yè)后,王長(zhǎng)虎已成為“字節(jié)系”出身、上升勢(shì)頭最猛、獲得融資最多的創(chuàng)業(yè)者之一。

最近6個(gè)月,王長(zhǎng)虎和愛詩科技拿到了累計(jì)25億元的融資。今年3月,愛詩科技獲得3億美元的C輪融資,由鼎暉香港基金、鼎暉VGC、鼎暉百孚領(lǐng)投,產(chǎn)業(yè)投資人中國儒意、三七互娛,以及投資機(jī)構(gòu)亦莊國投、眾為資本、國泰君安創(chuàng)新投資等共同參與,估值達(dá)到10億美元。

在模型端和產(chǎn)品端,王長(zhǎng)虎和團(tuán)隊(duì)幾乎每3個(gè)月就會(huì)進(jìn)行一次模型升級(jí)。2023年10月,愛詩科技推出PixVerse V1,成為全球首個(gè)可生成4K視頻的視頻大模型。到了PixVerse V4版本,愛詩科技已可將視頻生成做到5秒之內(nèi)。目前,PixVerse系列模型已經(jīng)到了V6版本,AI生成視頻不僅實(shí)現(xiàn)了音畫同步,人物與場(chǎng)景質(zhì)感也更貼近真實(shí)世界。

2025年年底,愛詩科技旗下產(chǎn)品PixVerse的App端和網(wǎng)頁端用戶規(guī)模超過1億,其ARR已超過4000萬美元。

王長(zhǎng)虎性格內(nèi)斂,達(dá)晨財(cái)智曾主投愛詩科技A輪,并參投B輪,達(dá)晨財(cái)智合伙人、執(zhí)行總裁兼首席投資官鄔曦告訴《中國企業(yè)家》:王長(zhǎng)虎沒有自己獨(dú)立的辦公室,和100多位同事一起辦公。愛詩科技的公司文化也被王長(zhǎng)虎概括為“愛詩范兒”——簡(jiǎn)單直接。匯報(bào)等級(jí)只有兩級(jí),組織扁平,反應(yīng)速度快。

在接受《中國企業(yè)家》的專訪中,王長(zhǎng)虎提到了10次“進(jìn)化”,8次“效率”,3次“畫問號(hào)”。對(duì)于一些投資人將愛詩科技比作視頻生成領(lǐng)域的“DeepSeek”,王長(zhǎng)虎提到,“從創(chuàng)業(yè)至今,我們只用了同行十分之幾甚至1%的成本資源,就做出了優(yōu)于或持平于同行的技術(shù)能力與產(chǎn)品?!?/p>

這種對(duì)效率的追求源于王長(zhǎng)虎在字節(jié)跳動(dòng)時(shí)期的技術(shù)積累。鄔曦說,王長(zhǎng)虎和團(tuán)隊(duì)在字節(jié)管理過2萬塊V系列GPU,他們非常懂得如何高效利用有限的資源去迭代產(chǎn)品。

3次“畫問號(hào)”則主要來自3個(gè)方面:抖快之外的機(jī)會(huì)、大廠離職創(chuàng)業(yè)者如何處理與大廠的競(jìng)對(duì)關(guān)系、AI時(shí)代to C和to B產(chǎn)品的分野等。同時(shí),王長(zhǎng)虎亦有信心和勇氣,比如他并不認(rèn)同,創(chuàng)業(yè)者就該“躲避”大廠的炮火射程。

除了V系列模型,愛詩科技還在布局C(面向影視)、E(面向營(yíng)銷)等一系列行業(yè)垂類視頻生成模型。2026年1月,愛詩科技率先推出了全球首個(gè)通用實(shí)時(shí)世界模型PixVerse R1。2026年4月,又推出了全球首個(gè)影視行業(yè)大模型PixVerse C1。

一位愛詩科技的業(yè)務(wù)負(fù)責(zé)人告訴《中國企業(yè)家》:2026年,公司高管內(nèi)部討論的重點(diǎn)是:愛詩并不是一個(gè)單純的MaaS公司,也不想單純地為提供Token而生。模型發(fā)展到現(xiàn)在的趨勢(shì)是,要越來越多地跟行業(yè)結(jié)合。

這也意味著愛詩科技正在走向兩線作戰(zhàn),一方面,奉行“讓每個(gè)人成為生活的導(dǎo)演”的大C端策略,就像王長(zhǎng)虎所說的:“讓全球幾十億人,都有機(jī)會(huì)從一個(gè)旁觀者變成參與者,從普通的消費(fèi)者變成創(chuàng)作者?!绷硪环矫妫惨钊氘a(chǎn)業(yè)端,正面和字節(jié)、快手等巨頭公司展開競(jìng)爭(zhēng)。

最近,愛詩科技宣布了和芒果TV、中國儒意等影視頭部公司的合作——中國儒意也是愛詩科技的產(chǎn)業(yè)投資人和戰(zhàn)略投資人。今年1月,愛詩科技獲得了中國儒意1420萬美元的戰(zhàn)略投資。

以下是王長(zhǎng)虎與《中國企業(yè)家》的獨(dú)家對(duì)話內(nèi)容(有刪減):

用同行1%的投入,達(dá)到100%的效果

《中國企業(yè)家》:最近視頻生成行業(yè)很熱鬧,各家都在密集迭代,你認(rèn)為整個(gè)行業(yè)有沒有進(jìn)入到分化階段?

王長(zhǎng)虎:我認(rèn)為是更繁榮了。我們(2023年)創(chuàng)業(yè)的時(shí)候,大模型剛出來,那時(shí)候我們就選擇All in視頻生成。我們?yōu)槭裁茨芨缈吹揭曨l大模型和應(yīng)用賽道的繁榮?因?yàn)橐曨l就是離我們最近的,它本來就應(yīng)該更繁榮。

這兩年,視頻生成的進(jìn)化速度非???。單看我們公司,過去一年半時(shí)間里,我們發(fā)布了八九次大模型更新,每?jī)扇齻€(gè)月就有新的大模型(版本)誕生。我們認(rèn)為,視頻生成還有很長(zhǎng)的爆發(fā)期,以及很長(zhǎng)的進(jìn)化空間。

《中國企業(yè)家》:模型進(jìn)化和升級(jí)這么快,是不是也意味著它的能力還沒有完全穩(wěn)定下來?

王長(zhǎng)虎:如果一件事情很快穩(wěn)定了,就會(huì)陷入到路徑收斂,效果穩(wěn)定,拼資源,更適合大廠競(jìng)爭(zhēng)。但視頻生成的高速發(fā)展,也在不斷產(chǎn)生更多的可能性,創(chuàng)業(yè)公司仍然有很多機(jī)會(huì)。

《中國企業(yè)家》:你怎么看Sora產(chǎn)品體驗(yàn)口碑很好,卻留存不佳的問題?

王長(zhǎng)虎:我非常贊賞Sora這些勇于探險(xiǎn)的先驅(qū)者,但創(chuàng)新畢竟是一個(gè)失敗率更高的事情。所以你們現(xiàn)在看到的所謂我們做出的“模板”,產(chǎn)品用量這么大,同行也都在持續(xù)做創(chuàng)新,只是有人可能沒跟上節(jié)奏。

Sora 2做了兩件成功的事情,第一,音畫同步生成質(zhì)量做得很好,模型終于不再拉胯。第二,它在消費(fèi)平臺(tái)做了很好,甚至很激進(jìn)的嘗試,不管它最后是否成功,不影響它是一次勇敢的嘗試。

嘗試失敗并不意味著這個(gè)方向失敗。Sora可能遇到了很多困難,但他們的效率沒有我們高,它每幀的成本可能是我們的幾十倍甚至更多。

第三,它在人和內(nèi)容的交互消費(fèi)端向社交做了探索,用AI視頻生成嘗試社交,這是非常有價(jià)值的。

《中國企業(yè)家》:Sora是不是有點(diǎn)太超前了?它去探索的AI視頻社交,或者社區(qū)類產(chǎn)品,是不是行業(yè)還沒有準(zhǔn)備好?

王長(zhǎng)虎:我們不能用幾個(gè)詞去簡(jiǎn)單歸因。我們認(rèn)為,在新時(shí)代,消費(fèi)和創(chuàng)作邊界越來越模糊,未來將會(huì)是什么樣的場(chǎng)景?每個(gè)人都可以消費(fèi),每個(gè)人都可以創(chuàng)作。Sora 2朝著這個(gè)目標(biāo)走出了一步,但最終什么樣的產(chǎn)品能夠獲得用戶的芳心,還需要不斷打磨。

《中國企業(yè)家》:抖音快手的一個(gè)重要貢獻(xiàn)是,最大程度地給了普通人表達(dá)的機(jī)會(huì)。你認(rèn)為AI生成視頻這波浪潮能帶給他們什么?

王長(zhǎng)虎:我也經(jīng)歷過抖音那個(gè)波瀾壯闊的時(shí)代,智能手機(jī)和4G、5G的普及,流量成本越來越低,讓抖音和快手造就了一個(gè)現(xiàn)象,每個(gè)人都可以輕而易舉地在短視頻平臺(tái)上去刷新視頻。

但這是不是意味著每個(gè)人都能成為創(chuàng)作者?這是我畫個(gè)問號(hào)的。全球幾十億人在玩視頻,但真正去拍攝、上傳和分享的人數(shù)占比可能小于10%,還是極小的比例。所以,我們要讓那些沒有這種體驗(yàn)的90%以上的幾十億用戶,通過我們的產(chǎn)品把他們的想象力變成視頻,去創(chuàng)作,去傳播,去分享,去交流,去互動(dòng)。

《中國企業(yè)家》:PixVerse爆火離不開內(nèi)容模板,模板為什么這么重要?

王長(zhǎng)虎:我們上線模板大概在2024年10月,這是一個(gè)非常獨(dú)特的節(jié)點(diǎn)。之前,都是創(chuàng)作者有明確的意圖,比如創(chuàng)作一個(gè)廣告片或者短預(yù)告片,然后通過調(diào)用模型生成片段。那時(shí)候遇到的困難是什么?生成的成功率非常低,生成10個(gè)才能挑到1個(gè)精華。用戶生成一次,發(fā)現(xiàn)生成不好,就不會(huì)再用第二次了。

于是我們就希望提供更低門檻的創(chuàng)作工具,所以(模板)一下子把生成的成功率從10%、20%拉到接近100%。

第二點(diǎn),降低用戶的生成門檻,甚至不需要輸提示詞,可以直接上傳自己的一張照片,選擇模板就可以了,可以真正讓幾十億普通人玩起來,用起來。所以,我們認(rèn)為它是視頻生成的GPT時(shí)刻。

這也讓我們做出了全球最好的視頻生成能力,并且推出了普通用戶最喜愛的、門檻最低的生成產(chǎn)品,達(dá)到了破圈的效果。

《中國企業(yè)家》:你認(rèn)為模板只是一個(gè)過渡還是終局產(chǎn)品形態(tài)?

王長(zhǎng)虎:它只是我們產(chǎn)品里的一個(gè)feature(特色)而已。除了模板,還有我們的首尾幀能力,你上傳兩張圖片,就能生成一個(gè)從A圖片變到B圖片的動(dòng)態(tài)視頻。還有我們的Agent能力,一些用戶希望能生成更長(zhǎng)的內(nèi)容,可編輯性更強(qiáng)的故事,我們就開發(fā)了一個(gè)Agent,可以調(diào)用不同的模板能力,調(diào)用不同的基礎(chǔ)視頻生產(chǎn)能力,自動(dòng)生成更長(zhǎng)、沖擊力更大的視頻。

《中國企業(yè)家》:你們有一個(gè)很重要的技術(shù)突破是,2025年發(fā)布的V5上實(shí)現(xiàn)了音畫同步。這會(huì)不會(huì)讓單個(gè)視頻的成本變得很高,你們?cè)趺慈タ刂瞥杀荆?/p>

王長(zhǎng)虎:我們是一家創(chuàng)業(yè)公司,但在模型能力上,我們一直以來是全球第一梯隊(duì)。我們的產(chǎn)品位列“全球前25大AI產(chǎn)品”,也是視頻生成領(lǐng)域里最早破千萬用戶的。

這意味著我們的效率是極高的,這不是做音畫同步生成開始的。我們從一開始就考慮,要用相比同行1/10甚至1%的成本資源,做出更好的能力和產(chǎn)品。

《中國企業(yè)家》:你們?cè)诩夹g(shù)上具體是怎么實(shí)現(xiàn)的?

王長(zhǎng)虎:最大的成本是認(rèn)知帶來的成本,即你的判斷力。我舉個(gè)例子,如果做一件復(fù)雜的事情,比如大模型,你要判斷非常多的節(jié)點(diǎn),任何一個(gè)節(jié)點(diǎn)都是未知的。

當(dāng)我要去攻克5個(gè)難題,每個(gè)難題都是未知的。你有5個(gè)解決方案,你要決定選擇哪一個(gè)和不選擇哪一個(gè),它就會(huì)產(chǎn)生巨大的成本差。最優(yōu)秀的團(tuán)隊(duì),總能選擇正確的道路。相反,另外一支團(tuán)隊(duì)有可能每次都選擇錯(cuò)誤。你會(huì)發(fā)現(xiàn),最好的團(tuán)隊(duì)和最差的團(tuán)隊(duì)里面的效率差是多少?是5的5次方。

在非技術(shù)側(cè),它意味著更扁平的決策鏈路。有判斷力的人和有資源決策的人,層級(jí)要盡可能少,這可以極大地提升團(tuán)隊(duì)的組織效率。我們公司踐行“簡(jiǎn)單直接”“愛詩范兒”的文化,有助于我們?cè)诜羌夹g(shù)層面上做得更快更好。

在技術(shù)側(cè),DeepSeek出來之后,熟悉我們的投資人或者企業(yè),都把我們看成是“視頻生成領(lǐng)域的DeepSeek”。DeepSeek的成功不僅在于開源,而且它用別人1/10的成本做出來了。反過來看,我們的成本壓力可能比他們更大,在文生視頻領(lǐng)域做到了這一點(diǎn),也要依靠非常多的因素。

我們?cè)跀?shù)據(jù)、模型、DiT(Diffusion Transformer)架構(gòu)層面,有著天然的優(yōu)勢(shì)。

第一,數(shù)據(jù)層面,如何能找到那些能幫你進(jìn)化、提升模型性能的最精華數(shù)據(jù)。這背后做得好或不好,都會(huì)體現(xiàn)到成本、效率、訓(xùn)練時(shí)間上。

第二,模型側(cè)也同樣。比如AI建模時(shí),該用什么方式去建模,如何提升視頻質(zhì)量,同時(shí)讓模型訓(xùn)練和推理的過程成本盡可能低,做到極致。實(shí)際上,在模型訓(xùn)練過程中,如何確保它每次都訓(xùn)練成功,而不是訓(xùn)完之后,發(fā)現(xiàn)結(jié)果不好,我們?cè)偃ビ?xùn)練。這也都會(huì)涉及到我們整個(gè)的投入成本。

第三,在模型架構(gòu)層面,如何既有效又速度快?推理層面如何更好地去調(diào)動(dòng)資源,因?yàn)槲覀兪侨虻挠脩?,如何“削峰填谷”?用有限資源去保障推理能力。這是一個(gè)復(fù)合型的工作,它既分非技術(shù)層面,又分技術(shù)層面。技術(shù)層面的話涉及到數(shù)據(jù)、模型和工程,我們每一點(diǎn)都要做到極致,你才有機(jī)會(huì)走到現(xiàn)在。

《中國企業(yè)家》:目前,大模型公司都在改進(jìn)自己的注意力機(jī)制。我注意到,你們?cè)赩5版本曾提到過“自適應(yīng)Attention結(jié)構(gòu)”,F(xiàn)ull Attention(全注意力)和Sparse Attention(稀疏注意力),你們?yōu)槭裁催x擇將它們結(jié)合起來使用?

王長(zhǎng)虎:選擇兩種結(jié)合,第一,讓效果不受到任何影響。第二,我們要以極高的效率完成建模,所以用不同的三線結(jié)構(gòu)組合方式做這件事情。模型不僅要處理視覺信息,還需融合三維空間之外的音頻維度,因此需要全新的結(jié)構(gòu)進(jìn)化。

《中國企業(yè)家》:聲音加入其中,是不是技術(shù)難度會(huì)更高一些。

王長(zhǎng)虎:一定是更難的,因?yàn)槟P透兄氖澜缍嗔艘粋€(gè)維度。我們整體的數(shù)據(jù)量希望能做到可控,雖然數(shù)據(jù)量一定會(huì)變大,但也一定要保證它是可控的。如何在有限樣本的前提下,盡可能提煉出本質(zhì)規(guī)律,強(qiáng)化對(duì)世界、音畫同時(shí)同步的理解,需要模型扮演更重要的角色。

不要回避與大公司競(jìng)爭(zhēng)

《中國企業(yè)家》:用戶在“拍我AI”上生成了視頻,下一步一定會(huì)去做分享或者分發(fā)。在自建生態(tài)上,你們是如何考慮的?

王長(zhǎng)虎:第一,我們鼓勵(lì)用戶在各個(gè)平臺(tái)去發(fā)布用我們的產(chǎn)品創(chuàng)作的視頻;第二,我們也鼓勵(lì)用戶在我們平臺(tái)上發(fā)布有價(jià)值的視頻,建立個(gè)人品牌。用戶也能參考他人發(fā)布的內(nèi)容,做一鍵二創(chuàng),增強(qiáng)歸屬感。

《中國企業(yè)家》:做用戶運(yùn)營(yíng),是不是比做模型和技術(shù)更難?

王長(zhǎng)虎:在我們看來,模型和產(chǎn)品居于一個(gè)維度,用戶會(huì)通過非常多的方式來告訴我們,技術(shù)產(chǎn)品應(yīng)該往哪個(gè)方向發(fā)展,它是一個(gè)協(xié)同的過程。我們會(huì)根據(jù)對(duì)用戶和技術(shù)發(fā)展的判斷,去超前進(jìn)化產(chǎn)品,這是必須做的事情。

在未來,視頻生成的壁壘是復(fù)合型的,就是數(shù)據(jù)、產(chǎn)品、用戶之間的協(xié)同。

《中國企業(yè)家》:大廠紛紛上線視頻產(chǎn)品,你們?nèi)绾慰创?jìng)爭(zhēng)壓力?有從字節(jié)離職創(chuàng)業(yè)的人告訴我們,創(chuàng)業(yè)要盡可能選在大公司的射程之外,但你們選的賽道一直是在大廠的核心地帶。

王長(zhǎng)虎:從創(chuàng)業(yè)第一天開始,我們就有這樣的壓力,我們一直在參與競(jìng)爭(zhēng)。AI的新時(shí)代,也一定會(huì)有最優(yōu)秀創(chuàng)業(yè)公司的機(jī)會(huì)。

是否該在射程內(nèi),不能簡(jiǎn)單歸因。我們創(chuàng)業(yè)的時(shí)候,大家都沒有看到這個(gè)方向,當(dāng)時(shí)AI生成視頻是個(gè)非共識(shí)的事情,但我們很快做起來了。現(xiàn)在, 我們的用戶量和產(chǎn)品規(guī)模,包括模型能力,都是可以跟大廠掰手腕的。我們的效率也是極高的,這是我們的優(yōu)勢(shì)。

所以(創(chuàng)業(yè)者)要不要做,是不是大廠只要做了同一個(gè)東西,你就一定要拐彎,馬上把產(chǎn)品拋棄,做其他事情,要畫個(gè)問號(hào)。

我們一直在做自己believe的事情,未來空間非常廣闊。我們想做的事情可能會(huì)在某個(gè)階段,和大廠的一些認(rèn)知重疊,但更多的階段應(yīng)該是不同的。

《中國企業(yè)家》:你們目前做的還是to C,抖音快手其實(shí)做到了幾千萬甚至上億的DAU,才徹底拉開了跟其他產(chǎn)品的差距。視頻生成領(lǐng)域是不是用戶量也要達(dá)到這個(gè)規(guī)模,才能拉開優(yōu)勢(shì)?

王長(zhǎng)虎:我們不能簡(jiǎn)單做這樣的結(jié)論。如果to C產(chǎn)品幾億規(guī)模才有優(yōu)勢(shì),意味著大多數(shù)產(chǎn)品都會(huì)被打倒,實(shí)際上很多公司生存得非常好。

這是一個(gè)新的時(shí)代,我們不能簡(jiǎn)單分類to C和to B,專業(yè)創(chuàng)作者和普通用戶的界限越來越模糊。上一個(gè)時(shí)代的經(jīng)驗(yàn)是否適用于這個(gè)時(shí)代,一定是畫個(gè)問號(hào)的。我們希望打破這種固有的認(rèn)知。

我認(rèn)為我們有能力在相應(yīng)的用戶規(guī)模上把產(chǎn)品做得更好,1億用戶不是天花板,但我們也不認(rèn)為,只有做到幾十億用戶,我們才能生存。AI信息時(shí)代到來,產(chǎn)品側(cè)一定是百花齊放的。

如果每個(gè)時(shí)代只有一兩個(gè)產(chǎn)品,只有幾十億用戶的產(chǎn)品才有生存空間,那這個(gè)時(shí)代太枯燥了。

《中國企業(yè)家》:在AI時(shí)代,人和內(nèi)容的關(guān)系是怎么樣的?

王長(zhǎng)虎:我們極致去推進(jìn)模型能力的進(jìn)化,讓用戶可以輕而易舉地完成自己的夢(mèng)想。我們希望模型能承載更多的東西,讓更廣泛的用戶群體做出過去只有非常專業(yè)的創(chuàng)作者才能做出的內(nèi)容。這是一個(gè)更大的群體,更值得我們?nèi)ヅΑ?/p>

《中國企業(yè)家》:你認(rèn)為AI時(shí)代的抖音,又會(huì)是什么樣子?

王長(zhǎng)虎:未來的抖音,一定不是把抖音的內(nèi)容替換成AI,這樣多枯燥。我覺得,每個(gè)時(shí)代都會(huì)有新的人和內(nèi)容交互方式,會(huì)出現(xiàn)新的硬件。

我們相信新的時(shí)代一定有新的國民產(chǎn)品,我們是往這個(gè)方向去努力的。但同時(shí),新的產(chǎn)品需要通過模型、產(chǎn)品、用戶飛輪轉(zhuǎn)起來,在這個(gè)過程中,要不斷試錯(cuò),去找到答案。

本文來自微信公眾號(hào)“中國企業(yè)家雜志”(ID:iceo-com-cn),作者:閆俊文,

(責(zé)任編輯:劉芃)