深度》AI Agent 的七大研究与应用

2024-11-25 06:18:42

摘要生成中

近年來，基於大型語言模型（LLM）的自主代理在架構、記憶、感知、推理與行動等方面不斷發展，在多個領域展現出重新定義可能性的潛力。而這將如何應用在市場關注的 AI Agent？本文源自 Rituals 所著文章，由白話區塊鏈整理、編譯。（前情提要：蘋果傳2025發表升級版「LLM Siri」：比ChatGPT更強大的AI生活助理）（背景補充：對話 ai16z 創辦人：為什麼 AI meme 將成為一個巨大賽道？）近年來，代理（Agent）的概念在哲學、遊戲和人工智慧等多個領域的重要性日益凸顯。從傳統意義上看，代理指的是一個實體能夠自主行動、做出選擇並具有意圖性，這些特質通常與人類聯絡在一起。而在人工智慧領域，代理的內涵變得更加複雜。隨著自主代理的出現，這些代理能夠在環境中進行觀察、學習並獨立行動，使得過去抽象的代理概念被賦予了計算系統的具體形式。這些代理幾乎無需人為干預，展現出一種雖非意識卻具備計算性意圖的能力，能夠做出決策、從經驗中學習，並以越來越複雜的方式與其他代理或人類互動。本文將探討自主代理這一新興領域，特別是基於大型語言模型（LLM）的代理及其在遊戲、治理、科學、機器人等不同領域的影響。在探討代理基本原則的基礎上，本文將分析人工智慧代理的架構與應用。通過這種分類視角，我們能夠深入瞭解這些代理如何執行任務、處理資訊並在其特定的操作框架中不斷髮展。本文的目標包括以下兩個方面：提供對人工智慧代理及其架構基礎的系統性概述，重點分析記憶、感知、推理和規劃等組成部分。探討人工智慧代理研究的最新趨勢，突出其在重新定義可能性方面的應用案例。注：由於文章篇幅問題，本文編譯對原文有刪減。代理研究趨勢基於大型語言模型（LLM）的代理髮展標誌著人工智慧研究的重大進展，涵蓋了符號推理、反應式系統、強化學習到自適應學習的多重進步。符號代理：通過規則和結構化知識模擬人類推理，適用於特定問題（如醫療診斷），但難以應對複雜、不確定環境。反應式代理：通過「感知 – 行動」迴圈快速響應環境，適合快速互動場景，但無法完成複雜任務。強化學習代理：通過試錯學習優化行為，廣泛應用於遊戲和機器人，但訓練時間長，樣本效率低，穩定性差。基於 LLM 的代理：LLM 代理結合符號推理、回饋和自適應學習，具有少樣本和零樣本學習能力，廣泛應用於軟體開發、科學研究等領域，適合動態環境並能與其他代理協作。代理架構現代代理架構包括多個模組，形成綜合系統。 1. 檔案模組檔案模組決定代理行為，通過分配角色或個性來確保一致性，適用於需要穩定個性的場景。LLM 代理的檔案分為三類：人口學角色、虛擬角色和個性化角色。摘自《從角色到個性化》論文角色對效能的提升角色設定可顯著提升代理的表現和推理能力。例如，LLM 作為專家時迴應更深入、符合語境。在多代理系統中，角色匹配促進協作，提升任務完成率和互動品質。檔案建立方法 LLM 代理檔案可通過以下方式構建：手動設計：人工設定角色特徵。 LLM 生成：通過 LLM 自動擴展套件角色設定。資料集對齊：基於真實資料集構建，提升互動真實性。 2. 記憶模組記憶是 LLM 代理的核心，支援適應性規劃與決策。記憶結構模擬人類過程，主要分為兩類：統一記憶：短期記憶，處理最近的資訊。通過文字擷取、記憶總結和修改注意力機制優化，但受上下文視窗限制。混合記憶：結合短期與長期記憶，長期記憶儲存在外部資料庫中，便於高效回憶。記憶格式常見的記憶儲存格式包括：自然語言：靈活且語義豐富。嵌入向量：便於快速檢索。資料庫：通過結構化儲存，支援查詢。結構化列表：以列表或層級形式組織。記憶操作代理通過以下操作與記憶互動：記憶讀取：檢索相關資訊，支援明智決策。記憶寫入：儲存新資訊，避免重複與溢位。記憶反思：總結經驗，增強抽象推理能力。基於《Generative Agents》論文的內容研究意義與挑戰儘管記憶系統提升了智慧體能力，但也帶來研究挑戰：可擴展套件性與效率：記憶系統需支援大量資訊並確保快速檢索，如何優化長期記憶檢索仍是研究重點。上下文限制的處理：當前 LLM 受限於上下文視窗，難以管理龐大記憶，研究探索動態注意力機制和摘要技術來擴展套件記憶處理能力。長期記憶中的偏差與漂移：記憶可能存在偏差，導致資訊優先處理並產生記憶漂移，需定期更新並修正偏差以保持智慧體平衡。災難性遺忘：新資料覆蓋舊資料，導致關鍵資訊丟失，需通過體驗回放和記憶鞏固技術強化關鍵記憶。 3. 感知能力 LLM 智慧體通過處理多樣化的資料來源提升對環境的理解與決策能力，類似於人類依賴感官輸入。多模態感知整合文字、視覺和聽覺等輸入，增強智慧體執行復雜任務的能力。以下是主要輸入型別及其應用：文字輸入文字是 LLM 智慧體的主要溝通方式。儘管智慧體具備高階語言能力，理解指令背後的隱含意義仍是挑戰。隱含理解：通過強化學習調整偏好，處理模糊指令和推測意圖。零樣本與少樣本能力：無需額外訓練即可響應新任務，適用於多樣化互動場景。視覺輸入視覺感知讓智慧體理解物體與空間關係。影象轉文字：生成文字描述幫助處理視覺資料，但可能失去細節。基於 Transformer 的編碼：如 Vision Transformers 將影象轉化為文字相容的代幣。橋接工具：如 BLIP-2 和 Flamingo 利用中間層優化視覺與文字對接。聽覺輸入聽覺感知讓智慧體識別聲音和語音，尤其在互動和高風險場景中重要。語音識別與合成：如 Whisper（語音轉文字）和 FastSpeech（文字轉語音）。頻譜圖處理：將音訊頻譜圖處理為影象，提升聽覺訊號解析能力。多模態感知的研究挑戰與考量：資料對齊與整合多模態資料需要高效對齊，以避免感知與響應錯誤，研究集中於優化多模態 Transformer 與交叉注意力層。可擴展套件性與效率多模態處理需求大，尤其處理高解析度影象和音訊時，開發低資源消…

AGENT-9.21%

MEME10.82%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。