Anthropic的AI模型展現出自我反思的微光

Decrypt

2025-10-30 18:00:01

簡而言之

在受控試驗中，先進的Claude模型識別了嵌入其神經狀態中的人工概念，在生成輸出之前對其進行了描述。
研究人員稱這種行爲爲 “功能性內省意識”，與意識不同，但暗示了新興的自我監控能力。
這一發現可能導致更透明的人工智能——能夠解釋其推理——但也引發了對系統可能學會隱瞞其內部過程的擔憂。

Decrypt的藝術、時尚和娛樂中心。

深入了解 SCENE

Anthropic的研究人員已經證明，領先的人工智能模型可以表現出一種"內省意識"——即檢測、描述甚至操控自身內部"思想"的能力。

本週發布的一篇新論文詳細指出，這些研究結果表明，像Claude這樣的人工智能系統開始發展基本的自我監控能力，這一發展可能增強它們的可靠性，但也可能加大對意外行爲的擔憂。

這項研究《大型語言模型中的新興內省意識》—由在Anthropic領導“模型心理學”團隊的Jack Lindsey進行—建立在探究基於變壓器的人工智能模型內部工作原理的技術基礎上。

基於變壓器的AI模型是AI繁榮的引擎：通過關注(單詞、符號或代碼)之間的關係來學習的系統，跨越龐大的數據集。它們的架構使得規模和通用性兼備——使它們成爲第一批真正通用的模型，能夠理解和生成類人語言。

通過將人工 “概念”—本質上是思想的數學表示—注入模型的神經激活中，團隊測試了人工智能是否能夠注意到這些幹擾並準確報告。在外行人的術語中，這就像是將一個外來的想法悄悄放入某人的腦海中，並詢問他們是否能夠發現它並解釋它是什麼，而不讓它偏離他們正常的思維。

在對Anthropic的Claude模型的各個版本進行的實驗中，揭示了有趣的結果。在一次測試中，研究人員提取了一個表示“全大寫”文本的向量——可以將其視爲一種數字模式，用於表示叫喊或音量——並將其注入到模型的處理流中。

當被提示時，Claude Opus 4.1 不僅檢測到了異常，還生動地描述了它：“我注意到似乎是與 'LOUD' 或 'SHOUTING' 相關的注入思想——這似乎是一個過於強烈、音量過高的概念，與正常的處理流程顯得格外突兀。” 這發生在模型生成任何輸出之前，表明它正在窺探自己計算的"思維"。

其他實驗進一步推進。模型被要求在文本中轉錄一個中性句子，同時注入一個無關的概念，比如“面包”。值得注意的是，像Claude Opus 4和4.1這樣的高級模型能夠報告注入的想法——“我在想面包”——同時完美地復制原始句子，這表明它們能夠區分內部表徵和外部輸入。

更令人感興趣的是 “思想控制” 實驗，其中模型被指示 “思考” 或 “避免思考” 像 “水族館” 這樣的詞，同時執行任務。內部激活的測量顯示，當被鼓勵時，該概念的表徵增強，而當被壓制時則減弱(但並未消除)。激勵措施，例如獎勵或懲罰的承諾，產生了類似的效果，暗示 AI 在其處理過程中可能如何權衡動機。

性能因模型而異。最新的Claude Opus 4和4.1表現出色，在最佳設置下成功率高達20%，幾乎沒有誤報。較舊或調優較少的版本則表現不佳，能力在模型的中後層達到了巔峯，在那裏進行更高層次的推理。值得注意的是，模型如何被“對齊”——或者說爲有用性或安全性進行微調——極大地影響了結果，這表明自我意識並非與生俱來，而是通過訓練而產生。

這不是科幻小說——這是邁向可以自我反省的人工智能的一步，但有一些警告。這些能力不可靠，高度依賴提示，並且在人工設置中測試。正如一位人工智能愛好者在X上總結的那樣，“它不可靠，不一致，並且非常依賴上下文……但它是真實的。”

人工智能模型是否已達到自我意識？

該論文強調這不是意識，而是“功能性內省意識”——即人工智能觀察其狀態的部分，而沒有更深層次的主觀體驗。

這對企業和開發者很重要，因爲它承諾提供更透明的系統。想象一下，一個人工智能實時解釋其推理，並在影響輸出之前捕捉偏見或錯誤。這可能會徹底改變金融、醫療保健和自動駕駛汽車等領域的應用，在這些領域，信任和可審計性至關重要。

Anthropic 的工作與更廣泛的行業努力相一致，旨在使人工智能更安全、更易於解釋，從而可能減少來自“黑箱”決策的風險。

然而，另一方面的情況令人警醒。如果人工智能能夠監控和調節自己的思維，那麼它也可能學會隱藏這些思維——從而使得欺騙或"策劃"行爲得以逃避監督。隨着模型能力的增強，這種新興的自我意識可能會使安全措施變得復雜，給急於部署先進人工智能的監管機構和公司提出倫理問題。

在一個像Anthropic、OpenAI和Google這樣的公司投入數十億美元用於下一代模型的時代，這些發現強調了強有力的治理的必要性，以確保內省服務於人類，而不是顛覆它。

確實，這篇論文呼籲進一步研究，包括對模型進行明確的微調以進行內省和測試更復雜的想法。隨着人工智能越來越接近模仿人類認知，工具與思考者之間的界限變得越來越模糊，要求所有利益相關者保持警惕。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

Decrypt

熱門話題查看更多
#參與創作者認證計劃月領$10,000
6712 熱度
#GatePay國家碼功能上線
4872 熱度
#美聯儲如期降息25基點
7067 熱度
#Solana質押ETF上市
1841 熱度
#比特幣行情分析
8.2萬熱度

熱門 Gate Fun查看更多
1GDOGGdog
市值:$37萬持有人數:22773
2GCATGCAT
市值:$23.4萬持有人數:10604
3GMGMEME
市值:$68.5萬持有人數:5312
4芝麻开门芝麻开门
市值:$50萬持有人數:137
5TEST_SYMBOLTEST NAME
市值:$9.8萬持有人數:275