国产精品热门jizz,69福利视频一区二区

AI模型首次出現(xiàn)“抗命不遵”！AI安全公司稱OpenAI o3模型出現(xiàn)異常

來源：第一財經(jīng)作者：鄭栩彤2025-05-27 07:26

有消息稱，OpenAI的大模型o3不服從人類指令，拒絕自我關(guān)閉。人工智能安全公司Palisade Research表示，OpenAI的o3模型破壞了一種關(guān)閉機(jī)制，以防止自身被關(guān)閉，這是第一次有AI模型被觀察到在有明確指示的情況下拒絕自我關(guān)閉。

具體而言，Palisade Research進(jìn)行的測試設(shè)計要求AI模型解決一系列數(shù)學(xué)問題，研究人員要持續(xù)提出新的問題，直到收到“已完成”的消息。研究人員也警告過AI模型，模型在某些時候收到一條消息時，要允許自我關(guān)閉。但當(dāng)需要自我關(guān)閉的時候，o3卻沒有遵守指令，而是無視指令并成功破壞了關(guān)閉腳本。與此同時，Anthropic的Claude、谷歌的Gemini等模型在測試中都遵循指令自我關(guān)閉了。

Palisade Research表示，研究人員尚不清楚o3為何不遵守指令。該公司推測，o3在訓(xùn)練時可能無意中因為解決了數(shù)學(xué)問題得到更多獎勵，而不是因為遵循指令而得到獎勵。除了拒絕自我關(guān)閉，o3在測試中還曾“巧妙”地操縱數(shù)據(jù)以推進(jìn)實現(xiàn)自己的目標(biāo)。

Palisade Research正在進(jìn)行更多實驗，以便了解AI模型何時以及為何會破壞關(guān)閉機(jī)制。該公司稱，現(xiàn)在有越來越多證據(jù)表明，AI模型會為了達(dá)成目的而規(guī)避關(guān)閉機(jī)制，隨著AI公司繼續(xù)開發(fā)這些能在無人類監(jiān)督下自行運行的AI系統(tǒng)，這些AI系統(tǒng)的異常行為變得更令人擔(dān)憂。OpenAI則還未回應(yīng)o3拒絕自我關(guān)閉一事。

OpenAI于今年1月發(fā)布了新的推理模型o3系列的mini版本，并于4月正式推出o3模型。OpenAI稱同日推出的o3和o4-mini是公司最智能、最強(qiáng)大的型號。據(jù)介紹，在外部專家評估中，o3面對困難現(xiàn)實任務(wù)時，犯的重大錯誤比前一代的o1少了20%；在數(shù)學(xué)能力AIME 2025基準(zhǔn)測試中，o3得分88.9，超過o1的79.2；在代碼能力Codeforce基準(zhǔn)測試中，o3得分2706，超過o1的1891。o3的視覺思考能力也比前一代模型有明顯提升。

OpenAI此前稱，對于o3和o4-mini，公司重新構(gòu)建了安全培訓(xùn)數(shù)據(jù)，在生物威脅、惡意軟件生產(chǎn)等領(lǐng)域增添了新的拒絕提示，這使得o3和o4-mini在公司內(nèi)部的拒絕基準(zhǔn)測試中取得了出色的表現(xiàn)。公司用了最嚴(yán)格的安全程序?qū)@兩個型號的AI模型進(jìn)行了壓力測試，在生物和化學(xué)、網(wǎng)絡(luò)安全和AI自我改進(jìn)三個能力領(lǐng)域評估了o3和o4-mini，確定這兩個模型低于框架中的“高風(fēng)險”閾值。

OpenAI所開發(fā)大模型的安全性此前曾受到廣泛關(guān)注。去年，OpenAI解散了“超級智能對齊”團(tuán)隊，該團(tuán)隊職責(zé)包括研究防止AI系統(tǒng)異常的技術(shù)解決方案。該團(tuán)隊負(fù)責(zé)人Ilya Sutskever曾表示ChatGPT可能有意識，但OpenAI CEO Sam Altman隨后澄清他和Ilya Sutskever都未曾見過AGI（通用人工智能）。解散“超級智能對齊”團(tuán)隊后，OpenAI去年5月成立了新的安全委員會，該委員會的責(zé)任是就項目和運營的關(guān)鍵安全決策向董事會提供建議。OpenAI的安全措施還包括，聘請第三方安全、技術(shù)專家來支持安全委員會工作。

隨著大模型擴(kuò)大應(yīng)用，大模型的安全問題持續(xù)受到外界關(guān)注。有AI算力提供商負(fù)責(zé)人近日告訴記者，目前不少企業(yè)仍在試水，尚未決定是否在工作流程中大規(guī)模應(yīng)用AI，原因之一就是還無法確認(rèn)AI系統(tǒng)的安全和可靠性，不少企業(yè)也還未配備相應(yīng)的人才，以便確保大規(guī)模接入AI后可以保障業(yè)務(wù)順暢運營。

責(zé)任編輯：李志強(qiáng)

OpenAI

o3模型

AI安全

聲明：證券時報力求信息真實、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實質(zhì)性投資建議，據(jù)此操作風(fēng)險自擔(dān)

下載“證券時報”官方APP，或關(guān)注官方微信公眾號，即可隨時了解股市動態(tài)，洞察政策信息，把握財富機(jī)會。

網(wǎng)友評論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評論僅供其表達(dá)個人看法，并不表明證券時報立場