Gate 广場「創作者認證激勵計畫」優質創作者持續招募中!
立即加入,發布優質內容,參與活動即可瓜分月度 $10,000+ 創作獎勵!
認證申請步驟:
1️⃣ 打開 App 首頁底部【廣場】 → 點擊右上角頭像進入個人首頁
2️⃣ 點擊頭像右下角【申請認證】,提交申請等待審核
立即報名:https://www.gate.com/questionnaire/7159
豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000 的豐厚獎勵等你拿!
活動詳情:https://www.gate.com/announcements/article/47889
2025 年六大人工智慧革命:Andrej Karpathy 的行業最大轉變指南
2025年,人工智慧領域經歷了震撼性的變革,這些轉變如此根本,以至於重塑了我們對機器學習、軟體開發與人機互動的思考方式。知名AI研究員兼科技專家Andrej Karpathy指出了六個重大的演進轉折點,這些轉變從根本上改變了整個領域。這些都不是漸進式的改進——它們代表了突破性的時刻,挑戰了既有假設,並開啟了全新的可能性。
可驗證獎勵學習的崛起:超越人類反饋
多年間,大型語言模型的生產訓練流程遵循一個可預測的三階段:預訓練(如2020年的GPT-2與GPT-3)、監督式微調(2022年的InstructGPT)以及基於人類反饋的強化學習(RLHF,亦為2022年)。這種方法已經證明穩定成熟,並主導了產業界建構生產級LLM的方式。
到2025年,出現了根本性的轉變。基於可驗證獎勵的強化學習(RLVR)成為領先AI實驗室採用的核心技術。這個區別至關重要:它不再依賴人類判斷來評分模型輸出,而是利用自動可驗證的環境——如數學問題解答、程式設計挑戰等,這些領域的正確性可以客觀判定。
這種訓練方式讓模型自發展出人類會認為的「推理策略」。它們學會將複雜問題拆解成中間計算步驟,並通過反覆優化探索多種解決方案。OpenAI於2024年底推出的o1模型首次展現了這一能力,而2025年初推出的o3模型則進一步展現了這種方法的巨大潛力。DeepSeek-R1論文提供了更多證據,說明這些可驗證環境如何幫助模型構建明確的推理鏈。
RLVR與以往方法的不同之處在於其對計算資源的需求。與監督式微調和RLHF相比,這些方法涉及較短、計算量較少的階段,RLVR則需要長時間的優化循環,針對客觀、確定性的獎勵函數進行訓練。這意味著原本用於預訓練的計算資源正被重新配置,用於這種新型訓練範式。關鍵創新在於:模型能力現在可以根據測試時的計算成本進行調整,通過生成更長的推理鏈和提供更多「思考時間」來實現。這代表了一個全新的擴展行為維度。
理解AI智慧:幽靈般的存在而非數位生物
2025年,業界對人工智慧的運作方式有了全新認識。Andrej Karpathy提出了一個深具共鳴的見解:我們不是在「繁育數位動物」,而是在「召喚幽靈」——這些本質上不同的實體,其智慧源自與生物系統截然不同的最佳化目標。
這個區別極為重要。人類神經網絡是在部落生存的自然選擇中演化而來。而大型語言模型則是為了模仿人類文本、在數學問題上取得高分、贏得人類評價而進行優化。在這些完全不同的演化壓力下,產生的智慧展現出截然不同的特性也就不足為奇。
這帶來一個驚人的觀察:人工智慧呈現出鋸齒狀、波動的能力曲線,而非平滑的能力增長。模型可能在某一瞬間展現百科全書般的專業知識,下一刻卻在基本推理上掙扎。它們可能同時展現出卓越與深度困惑,能產生令人驚嘆的解決方案,也可能在對抗性壓力下洩露敏感資料。
這一洞見對我們評估AI進展具有深遠影響。代表可驗證環境的基準測試,已變得容易受到RLVR優化的影響。AI團隊越來越多地構建與基準嵌入高度契合的訓練環境,有效覆蓋特定能力範圍。「在測試集上訓練」已成為產業標準做法。結果是:模型可以在所有可用基準上大掃除,但仍遠未達到通用人工智慧的水平。
游標現象:新應用層的崛起
2025年,游標(Cursor)的快速崛起揭示了AI應用架構中一些意想不到的事。起初作為一個專門的程式碼編輯器,逐漸演變成一個更廣泛的範式,引發了「X領域的游標」討論,涵蓋多個產業。
游標的真正突破在於展示如何建立一個新的LLM應用層。基本原則是:專用應用將多個LLM調用組合成越來越複雜的有向無環圖(DAG),在性能與計算成本之間取得平衡。這些系統處理「情境工程」——識別、檢索並優先處理每個查詢中最相關的資訊。它們提供領域專屬的圖形界面,讓人類保持在決策循環中,並提供調整機器人自主性(up or down)的機制,以符合任務需求。
Andrej Karpathy對這一層級的看法暗示未來大型語言模型平台將演變成「通才研究生級能力」,而專用應用則將這些通才轉化為「專家團隊」,通過提供私有資料、環境感測器、執行器以及針對特定垂直市場的持續反饋循環。
Claude Code:在你的電腦上運行的智慧代理
Anthropic的Claude Code標誌著AI代理在人體環境中運作的轉折點。它令人信服地展示了工具使用與推理可以循環迭代,實現跨越長時間的複雜持續問題解決。
Claude Code與競爭方案的不同之處在於其徹底的本地化策略。它不是部署在雲端容器環境(如OpenAI的方法),而是直接在用戶的個人電腦上運行。這種本地執行模式將AI深度整合到用戶的私有檔案、應用程式、開發環境與背景知識中——這些資訊若傳輸到遠端伺服器幾乎是不可能的。
在一個能力發展不均的過渡期,這個設計選擇展現了真正的策略思考。將代理直接部署在開發者的工作環境中,比建立分散式雲端集群更為合理。Claude Code將這一洞見濃縮成一個優雅且強大的界面——將AI從一個需要刻意拜訪的網站,轉變為嵌入用戶數位工作空間中的一個微小、智能的存在。
Vibe Coding:無需程式碼的程式設計
到2025年中,AI已經跨越了一個關鍵能力門檻:能夠利用自然語言描述構建複雜應用,程序員不再需要理解底層實作。這個概念迅速激起了想像力,甚至連Andrej Karpathy在一則社交媒體貼文中隨意創造的「Vibe Coding」一詞,也演變成一股產業潮流。
Vibe Coding徹底民主化了程式設計。專業門檻消弭,任何人都能用自然語言描述需求,並獲得可運行的程式碼。Andrej Karpathy記錄了他自己用Vibe Coding快速開發Rust版BPE分詞器的經驗,該過程跳過了深厚語言專業知識——這段程式碼「若用傳統方式,根本不可能寫出來」。
這不僅僅是讓程式設計更容易。專業開發者也獲得了前所未有的自由,可以快速建立探索性原型、測試架構想法、撰寫一次性應用來進行特定調查。程式碼變得短暫且可丟棄。用戶與創作者的界線模糊。軟體開發轉變為一個普通人與專業開發者都能有意義貢獻的領域,重新定義了職業與技術技能的期待。
Nano Banana及其他:為何AI需要視覺界面
Google的Gemini Nano及類似發展,根據Andrej Karpathy的評估,是2025年最具變革性的轉折之一。更廣泛的洞察是:大型語言模型代表了繼桌面與微型電腦時代之後的下一個計算範式,起源於1970年代與1980年代。
如果這個比喻成立,我們可以預期類似的創新將源自相似的技術基礎。個人電腦的圖形用戶界面革命並非因為純文字指令不可能——它們對專家來說運作良好——而是因為視覺呈現更貼近人類的認知偏好。
文字,雖然在計算上較原始,但與人類的輸入偏好與資訊消費模式極不相符。人類更善於視覺處理空間與圖形資訊,遠勝於解析句子。他們自然偏好透過圖像、圖表、投影片、白板與多媒體來接收資訊,而非純粹解析句子。
目前的LLM界面多以對話形式運作——基本上是與文字的命令列互動,類似1980年代的電腦操作。誰來建立人工智慧的圖形層,仍是部分未解之謎,但Nano Banana等產品已指向答案。Nano Banana的特色不僅在於圖像生成能力,更在於將文字生成、視覺創作與世界知識整合融入模型的權重結構中。
這六大轉折——從可驗證獎勵優化到視覺界面,從人類依賴的反饋到本地運行的AI代理,從專業技能到普及程式設計——展現了一個正經歷激烈轉型的產業。2020年代初期引導AI發展的框架已被徹底取代,取而代之的是全新的方法,每一種都開啟了幾個月前看似不可能的可能性。正如Andrej Karpathy的觀察所強調,2025年將被記憶為一個時刻:人工智慧在根本上重新定義了自己。