話題主持
本報(bào)記者 易蓉
實(shí)驗(yàn)室里,機(jī)器人的機(jī)械臂靈巧操作,實(shí)驗(yàn)數(shù)據(jù)自動(dòng)儲(chǔ)存、傳輸、分析。操控它的,是一個(gè)科研智能體。
這樣的實(shí)驗(yàn)室正在中國高校生長。人工智能賦能科學(xué)研究(AI for Science,AI4S)已經(jīng)從某個(gè)領(lǐng)域、某些環(huán)節(jié)的效率提升,邁向更廣領(lǐng)域和更高層次。隨著數(shù)據(jù)庫、基座模型、智能體等新AI4S科研“基礎(chǔ)設(shè)施”的建設(shè)和不斷完善,成為科研“合伙人”的AI會(huì)否超越人類承擔(dān)起“發(fā)現(xiàn)”的使命?科研是否能獲得“自動(dòng)駕駛”般的體驗(yàn)?
AI for Science
一場(chǎng)關(guān)于科學(xué)發(fā)現(xiàn)底層邏輯的革命
中國工程院外籍院士、香港科技大學(xué)首席副校長 郭毅可
過去一年,人工智能領(lǐng)域發(fā)生的大事讓人應(yīng)接不暇,科學(xué)的智能化也成為大家最關(guān)心的話題。而科學(xué)研究中最重要的就是科學(xué)發(fā)現(xiàn),作為科學(xué)家,我最關(guān)心的問題是人工智能究竟能否作出“發(fā)現(xiàn)”?這個(gè)“發(fā)現(xiàn)”是人類的專屬領(lǐng)地,還是機(jī)器也能參與其中?這正是我今天想探討的核心命題。
AI能“發(fā)現(xiàn)”嗎?從貝葉斯大腦到主動(dòng)推理
要回答這個(gè)問題,我們必須回到第一性原理:什么是“發(fā)現(xiàn)”?我們賴以認(rèn)知的世界,真的是我們“看見”的嗎?
人類的大腦只有1.4公斤,緊鎖在我們的顱骨里。我們對(duì)外部世界的所有感知都來自五官接收的信號(hào)。這些信號(hào)有兩個(gè)特點(diǎn):第一是離散,二維的,第二是有許多噪聲。我們能夠拼湊出一個(gè)連續(xù)、生動(dòng)、三維的世界圖像,靠的不是攝像式的記錄,而是大腦的“猜測(cè)”。這個(gè)“猜世界”的理論,在認(rèn)知科學(xué)中叫作“預(yù)測(cè)編碼”理論。大腦中有一個(gè)生成模型,它不斷根據(jù)已有的先驗(yàn)知識(shí)預(yù)測(cè)世界,同時(shí)從感官接收信號(hào)——只有那些與預(yù)測(cè)不符的“意外”,才會(huì)被大腦捕獲,成為我們修正認(rèn)知的素材。
所以,什么叫“發(fā)現(xiàn)”?發(fā)現(xiàn)就是“沒想到的事情”。貝葉斯定律告訴我們:不是看見了才相信,是相信了才看見。這與“情人眼里出西施”是一個(gè)道理。當(dāng)你看到一個(gè)人覺得對(duì)方美麗,是因?yàn)槟阈闹幸呀?jīng)有了“美”的模型和喜歡對(duì)方的先驗(yàn)。先驗(yàn)是主觀的認(rèn)知,似然是你的觀察,先驗(yàn)和觀察結(jié)合形成新的認(rèn)知。當(dāng)觀察與先驗(yàn)出現(xiàn)偏差,這個(gè)偏差就是“誤差”,在物理學(xué)中被稱為“自由能”。這個(gè)自由能對(duì)大腦有兩個(gè)作用:一是修正認(rèn)知,這叫感知推理;二是改變世界,讓它符合預(yù)期,這叫主動(dòng)推理。
主動(dòng)推理正是人工智能賦能科學(xué)研究(AI4S)最重要的理論依據(jù)。感知推理是我們熟悉的機(jī)器學(xué)習(xí),而主動(dòng)推理指向的則是具身智能——它不是把大模型放進(jìn)機(jī)器人里就萬事大吉,而是讓“行動(dòng)”本身成為推理鏈條的一環(huán)。行動(dòng)不是輸出,而是消除誤差的手段。好奇心從哪里來?探索行為從哪里來?都源于我們?cè)噲D減少世界的不確定性。發(fā)現(xiàn)的動(dòng)力,正源于此。
所以我的結(jié)論是:人和機(jī)器的智能在物理上是同源的,數(shù)學(xué)上是同構(gòu)的。我們沒有必要懷疑機(jī)器是否具有發(fā)現(xiàn)能力,因?yàn)槿说恼J(rèn)知本身也是一套完整的、可描述的機(jī)制。從這個(gè)意義上說,機(jī)器不僅能發(fā)現(xiàn),而且它發(fā)現(xiàn)的方法、邏輯,與人類可能并無本質(zhì)區(qū)別。
科學(xué)實(shí)驗(yàn)的AI化:從被動(dòng)記錄到主動(dòng)推理
過去幾年,我們看到了AI提高藥物篩選效率、加速蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、優(yōu)化材料合成路徑……但這些更多是解決“效率問題”——讓本來要做三年的事情縮短到三個(gè)月。這個(gè)效率的提高很大程度上是把科學(xué)實(shí)驗(yàn)智能化(AI for Lab)了,系統(tǒng)地把科學(xué)實(shí)驗(yàn)真正用AI做起來,讓AI從“效率工具”變成“合伙人”,讓實(shí)驗(yàn)室管理系統(tǒng)從“被動(dòng)記錄”走向“主動(dòng)推理”。
我現(xiàn)在正在主導(dǎo)AI原生創(chuàng)新環(huán)境(AINA,AI Native Arena)的研究,就是這種探索的實(shí)踐。傳統(tǒng)科研流程是:科學(xué)家提出假設(shè)—設(shè)計(jì)實(shí)驗(yàn)—收集數(shù)據(jù)—分析結(jié)果—撰寫報(bào)告。其中充斥著大量重復(fù)性、流程性工作,比如填電子表格、做實(shí)驗(yàn)筆記、管理庫存、歸檔數(shù)據(jù)。而現(xiàn)在,我們要用大模型和智能體把這些工作自動(dòng)化。
我們正在做科研人員的“實(shí)驗(yàn)分身”。它可以在7×24小時(shí)內(nèi)自主運(yùn)行,基于已有的先驗(yàn)?zāi)P秃蛯?shí)驗(yàn)結(jié)果,計(jì)算誤差,驅(qū)動(dòng)實(shí)驗(yàn)室設(shè)計(jì),觸發(fā)工作流。我們已經(jīng)在藥物管理、動(dòng)物中心管理等場(chǎng)景中實(shí)現(xiàn)了全流程自動(dòng)化。舉個(gè)例子:教授確定一個(gè)研究方向后,智能體自動(dòng)生成實(shí)驗(yàn)方案,整理數(shù)據(jù),發(fā)現(xiàn)問題后自動(dòng)修改,最后生成報(bào)告,整個(gè)流程兩天完成。這套系統(tǒng)的核心,是一套智能體自主協(xié)作機(jī)制:任務(wù)的觸發(fā)、智能體間的協(xié)作、持續(xù)的自我進(jìn)化。主動(dòng)推理在這里體現(xiàn)得淋漓盡致——發(fā)現(xiàn)不對(duì),重新設(shè)計(jì)實(shí)驗(yàn),重新改變工作流。這不是簡單的自動(dòng)化,而是真正的自演化。
與過去那種“用AI解決某個(gè)具體問題”的模式不同,今天的AINA要構(gòu)建完整的生態(tài)系統(tǒng):從數(shù)據(jù)采集、知識(shí)管理,到實(shí)驗(yàn)設(shè)計(jì)、結(jié)果驗(yàn)證,再到報(bào)告生成、知識(shí)傳播,全部被納入一個(gè)由人、AI集群、智能體協(xié)作的閉環(huán)中。第一層是人,負(fù)責(zé)提出方向和最終決策;第二層是智能體集群,負(fù)責(zé)數(shù)據(jù)分析、推理、實(shí)驗(yàn)設(shè)計(jì);第三層是智能體自主協(xié)作機(jī)制,負(fù)責(zé)任務(wù)的觸發(fā)、執(zhí)行和自我進(jìn)化。這三層架構(gòu),構(gòu)成了AI原生的科研新范式。
愿景、現(xiàn)狀與挑戰(zhàn):通向AI科學(xué)家的漫漫長路
作為科學(xué)家,我心中理想的人工智能賦能科學(xué)發(fā)現(xiàn)(AI for Discovery)是什么樣的?
我希望未來的科研,是“人+AI”的深度融合??茖W(xué)家不再是孤獨(dú)的探索者,而是與一群智能體協(xié)同工作的“指揮家”。當(dāng)一個(gè)想法產(chǎn)生時(shí),AI可以瞬間完成文獻(xiàn)綜述、實(shí)驗(yàn)設(shè)計(jì)、代碼生成;當(dāng)實(shí)驗(yàn)進(jìn)行時(shí),AI可以實(shí)時(shí)監(jiān)控、自動(dòng)調(diào)整、持續(xù)優(yōu)化;當(dāng)結(jié)果出現(xiàn)時(shí),AI可以撰寫報(bào)告、提出新問題、推動(dòng)下一步探索。科學(xué)家從繁瑣的重復(fù)勞動(dòng)中解放出來,專注于提出真正原創(chuàng)的假設(shè)、洞察真正深刻的規(guī)律。
我們距離這個(gè)愿景還有多遠(yuǎn)?實(shí)事求是地說,我們還在起步階段。今天的智能體在處理流程化、權(quán)限清晰的工作時(shí)已經(jīng)表現(xiàn)出色。比如在科學(xué)實(shí)驗(yàn)室中,所有工作流程一清二楚,權(quán)限管理嚴(yán)格,正是智能體發(fā)揮作用的理想場(chǎng)景。但一旦離開這種邊界清晰的領(lǐng)域,智能體的不確定性就會(huì)急劇增加,這也是為什么我不建議用它來管理個(gè)人文件系統(tǒng)——保密性和不確定性帶來的風(fēng)險(xiǎn)太大。
當(dāng)前面臨的挑戰(zhàn)至少有三個(gè):第一,多模態(tài)對(duì)齊。蛋白質(zhì)分子、化學(xué)分子、語言文字,這些不同模態(tài)的信息如何對(duì)齊?今天我們可以讓視頻中的人瞬間換裝,但要讓一個(gè)分子結(jié)構(gòu)精準(zhǔn)對(duì)應(yīng)到一段文字描述,還需要底層的突破。第二,數(shù)據(jù)的質(zhì)量與標(biāo)準(zhǔn)化。AlphaFold之所以成功,是因?yàn)樗⒃跀?shù)十年高質(zhì)量、標(biāo)準(zhǔn)化的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)之上。在其他領(lǐng)域,這樣的數(shù)據(jù)基礎(chǔ)還不存在,清洗數(shù)據(jù)的精力往往超過建模本身。第三,信任與驗(yàn)證。人工智能有幻覺,人類也有幻覺,但在科學(xué)領(lǐng)域,幻覺必須被驗(yàn)證、被約束。每一個(gè)環(huán)節(jié)的質(zhì)控、每一個(gè)發(fā)現(xiàn)的驗(yàn)證,都至關(guān)重要。
但即便如此,我仍然充滿信心。AI for Lab是AI for Discovery的關(guān)鍵一步,也是第一步。實(shí)驗(yàn)室的數(shù)據(jù)吞吐量巨大,驗(yàn)證知識(shí)、分析知識(shí)的瓶頸正在被AI逐步打破。這是一個(gè)巨大的產(chǎn)業(yè),也是智能體技術(shù)一個(gè)絕佳的切入點(diǎn)。那些以為AI只能“炒概念”的人會(huì)失望,因?yàn)樵诳茖W(xué)實(shí)驗(yàn)室里,AI真的很能干實(shí)事。
最后,我想說:AI for Science不僅是一場(chǎng)技術(shù)革命,更是一場(chǎng)認(rèn)知革命。它讓我們重新審視“發(fā)現(xiàn)”的本質(zhì),重新思考“智能”的邊界。在這場(chǎng)遠(yuǎn)征中,人永遠(yuǎn)是智能中樞,但我們將不再獨(dú)行。