Anthropic的AI模型展現出自我反思的微光

簡而言之

  • 在受控試驗中,先進的Claude模型識別了嵌入其神經狀態中的人工概念,在生成輸出之前對其進行了描述。
  • 研究人員稱這種行爲爲 “功能性內省意識”,與意識不同,但暗示了新興的自我監控能力。
  • 這一發現可能導致更透明的人工智能——能夠解釋其推理——但也引發了對系統可能學會隱瞞其內部過程的擔憂。

Decrypt的藝術、時尚和娛樂中心。


深入了解 SCENE

Anthropic的研究人員已經證明,領先的人工智能模型可以表現出一種"內省意識"——即檢測、描述甚至操控自身內部"思想"的能力。

本週發布的一篇新論文詳細指出,這些研究結果表明,像Claude這樣的人工智能系統開始發展基本的自我監控能力,這一發展可能增強它們的可靠性,但也可能加大對意外行爲的擔憂。

這項研究《大型語言模型中的新興內省意識》—由在Anthropic領導“模型心理學”團隊的Jack Lindsey進行—建立在探究基於變壓器的人工智能模型內部工作原理的技術基礎上。

基於變壓器的AI模型是AI繁榮的引擎:通過關注(單詞、符號或代碼)之間的關係來學習的系統,跨越龐大的數據集。它們的架構使得規模和通用性兼備——使它們成爲第一批真正通用的模型,能夠理解和生成類人語言。

通過將人工 “概念”—本質上是思想的數學表示—注入模型的神經激活中,團隊測試了人工智能是否能夠注意到這些幹擾並準確報告。在外行人的術語中,這就像是將一個外來的想法悄悄放入某人的腦海中,並詢問他們是否能夠發現它並解釋它是什麼,而不讓它偏離他們正常的思維。

在對Anthropic的Claude模型的各個版本進行的實驗中,揭示了有趣的結果。在一次測試中,研究人員提取了一個表示“全大寫”文本的向量——可以將其視爲一種數字模式,用於表示叫喊或音量——並將其注入到模型的處理流中。

當被提示時,Claude Opus 4.1 不僅檢測到了異常,還生動地描述了它:“我注意到似乎是與 'LOUD' 或 'SHOUTING' 相關的注入思想——這似乎是一個過於強烈、音量過高的概念,與正常的處理流程顯得格外突兀。” 這發生在模型生成任何輸出之前,表明它正在窺探自己計算的"思維"。

其他實驗進一步推進。模型被要求在文本中轉錄一個中性句子,同時注入一個無關的概念,比如“面包”。值得注意的是,像Claude Opus 4和4.1這樣的高級模型能夠報告注入的想法——“我在想面包”——同時完美地復制原始句子,這表明它們能夠區分內部表徵和外部輸入。

更令人感興趣的是 “思想控制” 實驗,其中模型被指示 “思考” 或 “避免思考” 像 “水族館” 這樣的詞,同時執行任務。內部激活的測量顯示,當被鼓勵時,該概念的表徵增強,而當被壓制時則減弱(但並未消除)。激勵措施,例如獎勵或懲罰的承諾,產生了類似的效果,暗示 AI 在其處理過程中可能如何權衡動機。

性能因模型而異。最新的Claude Opus 4和4.1表現出色,在最佳設置下成功率高達20%,幾乎沒有誤報。較舊或調優較少的版本則表現不佳,能力在模型的中後層達到了巔峯,在那裏進行更高層次的推理。值得注意的是,模型如何被“對齊”——或者說爲有用性或安全性進行微調——極大地影響了結果,這表明自我意識並非與生俱來,而是通過訓練而產生。

這不是科幻小說——這是邁向可以自我反省的人工智能的一步,但有一些警告。這些能力不可靠,高度依賴提示,並且在人工設置中測試。正如一位人工智能愛好者在X上總結的那樣,“它不可靠,不一致,並且非常依賴上下文……但它是真實的。”

人工智能模型是否已達到自我意識?

該論文強調這不是意識,而是“功能性內省意識”——即人工智能觀察其狀態的部分,而沒有更深層次的主觀體驗。

這對企業和開發者很重要,因爲它承諾提供更透明的系統。想象一下,一個人工智能實時解釋其推理,並在影響輸出之前捕捉偏見或錯誤。這可能會徹底改變金融、醫療保健和自動駕駛汽車等領域的應用,在這些領域,信任和可審計性至關重要。

Anthropic 的工作與更廣泛的行業努力相一致,旨在使人工智能更安全、更易於解釋,從而可能減少來自“黑箱”決策的風險。

然而,另一方面的情況令人警醒。如果人工智能能夠監控和調節自己的思維,那麼它也可能學會隱藏這些思維——從而使得欺騙或"策劃"行爲得以逃避監督。隨着模型能力的增強,這種新興的自我意識可能會使安全措施變得復雜,給急於部署先進人工智能的監管機構和公司提出倫理問題。

在一個像Anthropic、OpenAI和Google這樣的公司投入數十億美元用於下一代模型的時代,這些發現強調了強有力的治理的必要性,以確保內省服務於人類,而不是顛覆它。

確實,這篇論文呼籲進一步研究,包括對模型進行明確的微調以進行內省和測試更復雜的想法。隨着人工智能越來越接近模仿人類認知,工具與思考者之間的界限變得越來越模糊,要求所有利益相關者保持警惕。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)