Gate 广场「创作者认证激励计划」优质创作者持续招募中!
立即加入,发布优质内容,参与活动即可瓜分月度 $10,000+ 创作奖励!
认证申请步骤:
1️⃣ 打开 App 首页底部【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】,提交申请等待审核
立即报名:https://www.gate.com/questionnaire/7159
豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000 丰厚奖励等你拿!
活动详情:https://www.gate.com/announcements/article/47889
2025年六大AI革命:Andrej Karpathy的行业最大变革指南
2025年,人工智能领域经历了震撼性的变革,变革如此根本,以至于重新塑造了我们对机器学习、软件开发和人机交互的认知。著名的AI研究员兼技术专家Andrej Karpathy指出了六个主要的演变转折点,这些转折点从根本上改变了该领域。这些都不是渐进式的改进——它们代表了突破性的时刻,挑战了既有的假设,开启了全新的可能性。
可验证奖励学习的崛起:超越人类反馈
多年来,大型语言模型的生产训练流程遵循一个可预期的三阶段:预训练(如2020年的GPT-2和GPT-3)、监督微调(2022年的InstructGPT)以及基于人类反馈的强化学习(RLHF,亦为2022年)。这种方法被证明稳定成熟,主导了行业构建生产级LLM的方法。
到2025年,发生了根本性转变。基于可验证奖励的强化学习(RLVR)成为领先AI实验室采用的核心技术。关键在于:不再依赖人类判断对模型输出进行评分,而是利用自动可验证的环境——如数学问题解决、编程挑战等领域,在这些领域中正确性可以被客观判定。
通过这种方式训练的模型会自发发展出人类所认知的“推理策略”。它们学会将复杂问题拆解成中间计算步骤,并通过反复优化发现多条解决路径。OpenAI的o1模型(2024年底发布)首次展现了这种能力,而随后的o3(2025年初)则展示了这种方法的巨大潜力。DeepSeek-R1论文提供了更多证据,说明这些可验证环境如何帮助模型构建明确的推理链。
RLVR的不同之处在于所需的计算强度。与监督微调和RLHF相比——这些阶段相对较短、计算负担较轻——可验证奖励训练需要在目标确定的奖励函数上进行长时间的优化循环。这意味着原本用于预训练的计算资源正被重新投入到这种新型训练范式中。关键创新在于:模型能力现在可以作为测试时计算成本的函数进行调整,通过生成更长的推理链和提供更多“思考时间”。这开辟了一个全新的扩展维度。
理解AI智能:幽灵实体而非数字生物
2025年,行业对人工智能的本质有了新的认识。Andrej Karpathy提出的一个洞察在整个领域引起共鸣:我们不是在“繁育数字动物”,而是在“召唤幽灵”——这些实体的智能源自与生物系统完全不同的优化目标。
这个区别意义重大。人类神经网络通过自然选择在部落生存场景中演化而来。大型语言模型则被优化以复制人类文本、在数学题中取得高分、赢得人类评价的认可。鉴于这些完全不同的进化压力,结果表现出的智能方式也会截然不同。
这带来了一个惊人的观察:人工智能表现出锯齿状、锯齿波形的能力曲线,而非平滑的能力增长曲线。模型可能在某一瞬间展现百科全书般的专业知识,而下一刻却在基本推理上挣扎。它们既能展现出卓越的才华,也可能表现出深刻的困惑,既能提出令人惊叹的解决方案,也可能在对抗压力下泄露敏感信息。
这一洞察对我们评估AI进展具有深远影响。基准测试——代表可验证环境——已变得容易被RLVR优化。AI团队越来越多地构建与基准嵌入紧密对应的训练环境,有效覆盖特定能力区域。“在测试集上训练”已成为行业标准做法。结果是:模型可以在所有可用基准上大获全胜,却远未达到通用人工智能的水平。
光标现象:新应用层的出现
2025年,光标(Cursor)的快速崛起揭示了AI应用架构中的意想不到的变化。起初作为一个专业的代码编辑器,逐渐演变成一种更广泛的范式,引发了“X领域的光标”讨论,涉及多个行业。
光标的真正突破在于展示了如何构建一层新的LLM应用。基本原则是:专业应用将多个LLM调用编排成越来越复杂的有向无环图(DAG),在性能与计算成本之间取得平衡。这些系统处理“上下文工程”——识别、检索并优先处理每个查询中最相关的信息。它们提供领域特定的图形界面,保持人在决策环路中,并提供调节机制,让用户根据任务需求调节模型的自主性。
Andrej Karpathy对这一层级的看法暗示了未来:大型语言模型平台将演变为“通用研究生级能力”,而专业应用则通过提供私有数据、环境传感器、执行器和持续反馈,将这些“通用者”转变为“专家团队”。
Claude Code:在你的电脑上运行的智能代理
Anthropic的Claude Code标志着AI代理在人体环境中运行方式的一个里程碑。它令人信服地展示了工具使用和推理可以迭代循环,支持复杂、持续的问题解决。
区别于竞争方案的是其激进的本地化策略。Claude Code不是部署在云端容器环境中(如OpenAI的方法),而是直接在用户的个人电脑上运行。这种本地执行模型深度整合了AI与用户的私有文件、应用程序、开发环境和上下文知识——这些信息远远难以传输到远程服务器。
在能力发展不均衡的过渡期,这一设计选择展现了真正的战略思考。将代理直接部署在开发者的工作环境中,比构建分布式云集群更符合逻辑。Claude Code将这一洞察浓缩成一个优雅、强大的界面——将AI从一个需要刻意访问的网站,变成嵌入用户数字工作空间的智能存在。
Vibe Coding:无需代码的编程
到2025年中,AI已跨越一个关键能力门槛:能够用自然语言描述构建复杂应用,程序员无需理解底层实现。这个概念迅速引发热议,Andrej Karpathy在一条社交媒体上的随意提及“Vibe Coding”一词,演变成行业的主流运动。
Vibe Coding从根本上实现了编程的民主化。专业门槛消弭,任何人都可以用自然语言描述需求,获得可用的代码。Andrej Karpathy记录了他自己用Vibe Coding快速开发Rust中的定制BPE分词器的经历,绕过了深厚的语言专业知识——这段代码“如果用传统编程方式,根本不可能写出来”。
其影响超越了可及性。专业开发者获得了新的自由,可以构建探索性原型、以最低成本测试架构思想,以及为特定研究写一次性应用。代码变得短暂且可抛弃。用户与创造者的界限变得模糊。软件开发转变为一个普通人和专业开发者都能贡献的领域,重新定义了职业和技术技能的预期。
Nano Banana及未来:为什么AI需要视觉界面
Google的Gemini Nano及类似发展代表了Andrej Karpathy评估中的2025年最具变革性的转变之一。更广泛的洞察是:大型语言模型代表了继20世纪70年代和80年代桌面与微机时代之后的下一代计算范式。
如果这个类比成立,我们应预期类似的创新会源自相似的技术基础。个人计算的图形用户界面革命并非因为文本命令不可能——它们对专家来说完全可行——而是因为视觉表现更贴合人类认知偏好。
文本虽然在计算上原始,但与人类输入偏好和信息消费模式极不匹配。人类更擅长视觉处理空间和图形信息,而非解析句子。他们自然偏好通过图片、图表、幻灯片、白板和多媒体获取信息,而非逐字解析。
目前的LLM界面主要通过对话实现——本质上是类似于20世纪80年代的命令行文本交互。谁来构建人工智能的图形层,仍是一个悬而未决的问题,但像Nano Banana这样的产品指向了答案。Nano Banana的不同之处不在于仅仅具备图像生成能力,而在于将文本生成、视觉创作和世界知识的整合融入模型的权重结构中。
这六大转变——从可验证奖励优化到视觉界面,从人类依赖反馈到本地运行的AI代理,从专业技能到普及编程——展现了行业的激烈变革。引导2020年代早期AI发展的框架已被全新方法取代,每一种都开启了几个月前看似不可能的可能性。正如Andrej Karpathy的观察所强调的,2025年将被铭记为:人工智能在某一瞬间实现了根本性的自我革新。