亚洲一区图片,青青青国产在线,国产色婷婷精品综合在线观看,色综合天天,亚洲福利视频一区二区三区,国产在线视频专区,午夜精品区

如何給聊天機器人設(shè)護欄引發(fā)熱議

2026-05-13 11:28 來源：科技日報

查看余下全文

如何給聊天機器人設(shè)護欄引發(fā)熱議

2026年05月13日 11:28 來源：科技日報劉霞

[字號大中小]

今年4月底，美國佛羅里達州總檢察長詹姆斯·烏斯邁爾宣布，州級檢察官辦公室已對人工智能（AI）公司OpenAI及其聊天機器人ChatGPT啟動刑事調(diào)查，焦點在于ChatGPT是否在去年4月佛羅里達州立大學(xué)一起慘烈的校園槍擊案中充當(dāng)了“幫兇”。對此，OpenAI稱，公司正與當(dāng)局合作，ChatGPT不應(yīng)對這起可怕的罪行負(fù)責(zé)。

英國《自然》網(wǎng)站在近日的報道中指出，盡管OpenAI目前尚未受到任何指控，但這項調(diào)查直指AI公司面前的一道核心難題：為什么打造一個契合人類法律、道德和價值觀的聊天機器人竟如此艱難？

澳大利亞麥格理大學(xué)大語言模型聯(lián)盟研究員烏斯曼·納西姆認(rèn)為，不管佛羅里達州的調(diào)查是否會給OpenAI招致法律后果，但會促使各家公司證明自身安全措施是否有效。與此同時，科學(xué)家也在全力以赴，試圖將人類價值觀“編碼”進AI模型，即實現(xiàn)人機價值對齊，以助其既有用又安全。

安全措施尚顯薄弱

近年來，人們對大語言模型聊天機器人輸出危險乃至非法建議的憂慮與日俱增，從慫恿自殺、炮制非法內(nèi)容到財經(jīng)欺詐，不一而足?？裳巯拢珹I系統(tǒng)的安全防線依然脆弱。

納西姆透露，當(dāng)前聊天機器人的安全標(biāo)準(zhǔn)基本由各公司自行定奪，外部監(jiān)督少之又少。許多公司坦承問題所在，也表態(tài)已采取安全措施阻止輸出可能誘發(fā)危險行為的建議，但一些研究人員呼吁應(yīng)引入獨立的安全檢測。

目前，一些公司采取的一項防護手段是內(nèi)容過濾器，其能讓AI工具拒絕回應(yīng)含有特定敏感詞的請求。不過，澳大利亞新南威爾士大學(xué)AI研究員托比·沃爾什指出，用戶完全可以繞過這個坎。他們只需重新組織提問方式，把不良意圖包裝成假設(shè)或虛構(gòu)情境，AI工具便很難從看似無害的請求里甄別出危險的端倪。

納西姆補充說，包括內(nèi)容過濾、行為訓(xùn)練和政策規(guī)則在內(nèi)的許多安全措施，說到底還是一種外部控制，而非系統(tǒng)對道德或意圖真真切切地領(lǐng)悟。這些手段并非全然無用，但也并不完美，執(zhí)著的用戶仍能找到破綻鉆空子。

安全與實用不易兼得

聊天機器人為啥總不能規(guī)規(guī)矩矩守法？部分癥結(jié)在于，那些驅(qū)動最熱門聊天機器人的大語言模型，其學(xué)習(xí)方式是“依樣畫葫蘆”，而非遵循一套明晰的規(guī)則。

這些大語言模型在海量互聯(lián)網(wǎng)文本上接受訓(xùn)練。當(dāng)用戶提問或給出提示詞時，模型便會預(yù)測最有可能依次出現(xiàn)的詞匯序列。沃爾什認(rèn)為，這種設(shè)計讓這些大語言模型幾乎什么都能回應(yīng)，成為“萬事通”，但反過來，要想給那些不該說的話設(shè)下牢靠的護欄，也就變得倍加困難。

納西姆強調(diào)，大語言模型給出的答案，只是一種模式拼湊，它們并不真正理解話語的含義或后果。

沃爾什回顧道，科研人員曾試圖教AI系統(tǒng)遵循規(guī)則。上世紀(jì)五六十年代風(fēng)靡一時的符號AI，便是教計算機恪守規(guī)則。但澳大利亞阿德萊德大學(xué)AI研究員西蒙·盧西直言，這套辦法應(yīng)付不了大規(guī)模的現(xiàn)實世界問題，因為開發(fā)者根本無法編寫足夠多的規(guī)則來囊括所有情形。

沃爾什建議，想讓現(xiàn)有大語言模型更安全，可借助基于人類反饋的強化學(xué)習(xí)。具體而言，人類評估模型的輸出，并手把手引導(dǎo)它形成更可取的回答，但這套做法極耗資源，成本高昂。

另一種思路，是從訓(xùn)練AI模型最初的數(shù)據(jù)集里剔除有害信息，可研究表明，這招未必總奏效。沃爾什說，對科技公司而言，人工梳理如此龐大的數(shù)據(jù)集，花費同樣驚人。他還強調(diào)，在安全與實用之間，必須拿捏好分寸。如果給系統(tǒng)戴上過緊的枷鎖，它也就失去了用武之地。

底層算法亟待重新考量

納西姆表示，投身“人機對齊”研究的科學(xué)家，正放眼比內(nèi)容檢測器更寬廣的視野，致力于開發(fā)能精準(zhǔn)識別整段對話中有害意圖的系統(tǒng)，而不只是孤立地標(biāo)記某個問題。

盧西透露，一些科學(xué)家還在打造“神經(jīng)符號AI”。它將老派符號AI與神經(jīng)網(wǎng)絡(luò)方法融于一身，這類模型在計算機編程和數(shù)學(xué)領(lǐng)域已嶄露頭角，一旦輸出不靈光，大語言模型就能立即獲得反饋并據(jù)此改進?？稍趥惱砗头深I(lǐng)域，這種立竿見影的反饋并不容易實現(xiàn)，因為它來得太慢，而且過程中可能已經(jīng)造成了傷害。

盧西還指出，眼下多家公司正嘗試砸巨資去獲取并管理更多數(shù)據(jù)來優(yōu)化系統(tǒng)，也雇傭更多人提供更優(yōu)質(zhì)的反饋。但他強調(diào)，AI研究者需要重新審視大語言模型的底層算法，才能構(gòu)建起真正能夠體悟人類倫理與法律的AI系統(tǒng)。

(責(zé)任編輯：張翀)