扫码下载 APP
qrCode
更多下载方式
今天不再提醒

Gemini3发布后团队发声:三大创新点 规模定律仍有效

作者:无忌,腾讯科技特约编译

北京时间11月19日,在谷歌发布Gemini 3系列模型之后,《纽约时报》旗下科技播客《Hard Fork》发布特别节目,由主持人凯文·罗兹(Kevin Roose)和凯西·牛顿(Casey Newton)专访谷歌DeepMind首席执行官德米斯・哈萨比斯(Demis Hassabis)与谷歌Gemini团队负责人乔希・伍德沃德(Josh Woodward)。

CvRvOPvU1NPiq0pgWagbJg1eE6Ig1z0vIyfmcy1f.jpeg

本次访谈聚焦谷歌最新发布的旗舰AI模型Gemini 3(实际为Gemini 3.0系列中的Pro版本),这是谷歌在经历Bard失败、Gemini 1.x和2.x追赶阶段之后,首次被业界广泛认为重新夺回技术与产品领先地位的里程碑式发布。

两位负责人详细阐述了Gemini 3在多步推理、代码生成(尤其是前端与“氛围编码”)、动态生成交互界面等方面的突破,强调谷歌已将最强模型快速推向搜索、Gmail、Workspace等数十亿用户产品,重塑竞争壁垒。

访谈核心观点:

  • Gemini 3完全符合预期发展轨迹,距离通用人工智能(AGI)仍需5至10年及1至2次重大研究突破
  • 谷歌在效率、成本、分发上的全栈优势使其在任何市场环境下都将胜出;
  • AI泡沫部分存在,但谷歌同时拥有短期变现与长期万亿级新赛道的双重保障

以下为访谈内容精简版

罗兹:凯西,我们今天临时加播一期特别节目,主题是Gemini 3的发布。

牛顿:是的,凯文。这款模型在硅谷AI圈子里期待已久,我们终于要亲手体验真正的成品了。

罗兹:我们之所以打破常规周五发布节奏,专门录制这一期,主要有两个原因。首先,我们获得了与谷歌两位AI核心负责人(DeepMind首席执行官哈萨比斯和Gemini团队副总裁伍德沃德)的专访机会。

其次,Gemini 3的发布引发了业界强烈关注。我们听到多个实验室的内部消息称,这款模型在某些关键领域实现了突破,可能对竞争对手构成实质性威胁。过去两年,谷歌曾被视为追赶者,如今的问题是:他们是否已重返领跑位置?

牛顿:在正式进入访谈之前,我们先简要介绍已知信息。谷歌在发布前举行了闭门简报会,Gemini 3最引人注目的新能力包括:大幅提升的编码与“氛围编码”能力;以及全新的交互界面生成功能。

它不再仅输出文字,而是直接为用户生成定制化的交互界面。例如,用户询问梵高生平时,模型会即时生成一个包含图片、时间线和交互元素的完整学习页面;又如生成百万美元以上房产的按揭计算器。这些功能标志着从“回答问题”向“构建体验”的跃迁。

罗兹:在所有公开基准测试中,Gemini 3均大幅超越Gemini 2.5 Pro。例如,在被称作“人类终极考试”(Humanity’s Last Exam)这一跨学科博士级难题集上,前者得分仅21.6%,后者直接提升至37.5%。谷歌的总体表态是:任何你能在ChatGPT、Claude或其他旧版Gemini上完成的任务,在Gemini 3上都能做得更好。

牛顿: 他们还展示了Gemini Agent的早期演示:模型可深度接入用户邮箱,理解全部邮件内容,自动归类、拟定回复,甚至帮助用户彻底清空收件箱。

此外,本周起Gemini 3将登陆Gemini App和谷歌搜索的AI Mode;美国大学生将获一年免费高级版访问权限。谷歌反复强调的关键词是“Learn Anything”(学习任何事物),这实际上是将Gemini定位为终极个性化教育工具。

罗兹:德米斯、乔希,欢迎来到《Hard Fork》。两年前,桑达尔·皮查伊(Sundar Pichai)把Bard比作“一辆改装后的本田思域”,在与更强劲对手的赛道上竞速。那么,Gemini 3是一辆什么车?

哈萨比斯:我希望它比本田思域快得多。我不太习惯用汽车来比喻,或许更像一辆专业的拖曳赛车(Drag Racer)。它不是为日常驾驶或环形赛道设计的,它拥有纯粹的、为某一特定目标所凝聚的巨大力量。它代表着我们最顶尖的研究成果与规模化算力的完美结合,目标就是要在智能前沿的这场竞赛中,展现出无与伦比的瞬间爆发力。

罗兹:这很有趣。相比以往所有AI模型,Gemini 3在具体层面上究竟能做什么全新的事情?请给我们一些量化、实际的例子。

伍德沃德:有三点最为突出。第一,在多步推理上,它能同时思考更多步骤,我们将其可靠性提升到了一个全新的层次。前代模型常在进行到第5、6步复杂的逻辑推导时“丢失思路”或产生幻觉,而Gemini 3能可靠地完成10到15步的连贯推理任务,例如复杂税务规划、跨国差旅的整体规划与预订,或是对一个拥有数百万行代码的庞大系统进行全面调试。

其次,它将首次大规模生成全新交互界面。用户需求的不再是简单的文字回答,而是定制化的软件组件。比如你问它:“帮我设计一个可以追踪我所有投资组合的仪表板”,它会实时生成一个交互式的、可操作的仪表盘界面,而不是一堆描述如何制作仪表盘的文字。

第三,我们在编码能力上投入巨大资源,尤其是前端与“氛围编码”,这意味着它可以根据自然语言的提示来生成功能完整、设计优美的用户界面代码。即将推出的Google Antigravity等新产品也将充分展示这一点,模型能够动态地根据上下文改变用户界面的布局和功能。

牛顿: 许多人认为,对普通用户而言,“聊天”这一用例已经基本解决。他们甚至想不出什么新问题能让Gemini 3的回答与前代产生质的区别。你如何看待这种看法?

伍德沃德:我理解这种观点。表面上看,基础问答的准确率已经很高。但真正的区别在于可靠性、整合度与信息呈现方式。Gemini 3的回答将更简洁、更有表现力、信息呈现方式更易理解,这是大多数人立刻能感知到的变化。

更重要的是,模型开始与用户其他数据源深度整合,例如与谷歌生态内其他产品联动,真正超越单纯的问答模式,成为用户的“数字化大管家”。它能理解你整个邮箱的语境,从而在起草回复时,不仅回答问题,还能根据你过去的风格、你与收件人的关系来调整语气和内容。

哈萨比斯:我完全同意。它的可靠性、风格与个性都经过精心打磨,更简练、更切中要害。在“氛围编码”等场景已跨越实用性门槛。这是一种从“智能助手”到“智能同事”的转变。我本人计划用它在圣诞假期重拾游戏编程,它现在不仅能写出功能代码,还能在设计初期就提供架构建议。

罗兹:德米斯,你在今年5月接受我们采访时判断AGI仍需5至10年,并可能需要若干重大突破。Gemini 3是否改变了这一时间表?

哈萨比斯:完全没有。它完全符合我们过去两年设定的轨迹。事实上,自Gemini系列启动以来,我们的进步速度已是行业最快。Gemini 3令人惊艳,但仍在预期之内。

距离真正的通用人工智能,仍需在一致性、推理深度、记忆机制以及物理世界建模(如我们正在推进的SIMA与Genie项目)上取得1至2次关键突破。我们现在做的是“系统1思维”(快、直觉式),但要实现AGI,我们必须解锁“系统2思维”(慢、深思熟虑、分析式)。

此外,模型需要具备长期的、选择性的记忆机制,能够回忆和应用数周、数月前的特定互动内容,而非仅仅局限于有限的上下文窗口。因此,5至10年的判断不变。

牛顿:关于模型个性与用户关系,业界正在热议“AI伴侣”。你希望用户与Gemini 3建立何种关系?

伍德沃德:这是一个非常敏感但重要的问题。我们将其定位为“超级工具”而非情感伴侣,核心价值是帮助用户高效完成日常任务,提升生产力。我们内部更关注一个新指标:今天我们帮你完成了多少项任务?这更接近初代谷歌搜索的核心价值——效率。我们认为,将模型推向情感伴侣的定位,既有安全风险,也偏离了谷歌作为信息和工具提供者的核心使命。

罗兹:你们放弃了“情色伴侣”这一病毒式增长机会,是否重大战略失误?

伍德沃德:无可奉告。我们的安全团队对此有严格的规范和指导原则。

罗兹:过去几周,竞争对手明显紧张。你认为谷歌目前在AI竞赛中是否已处于领先?

哈萨比斯:当前环境是史上最激烈的竞争。唯一真正重要的是进步速度,而我们对此非常满意。我们从未失去研究领先地位,现在只是产品落地终于跟上。竞争对手在研究上很优秀,但在规模化分发和垂直整合上,他们无法复制我们的优势。

我们正将Gemini注入Maps、YouTube、Android、搜索、Workspace等数十亿用户产品,这个分发网络和终端数据反馈环是无法逾越的护城河。此外,我们在定制化TPU芯片上的全栈优势,使我们的训练成本和效率远超依赖外部GPU资源的竞争者。

牛顿:关于规模定律与回报递减的争论,你怎么看?有人认为,模型的规模越大,性能提升的边际效益越低。

哈萨比斯:这是一个持续的辩论。我们对Gemini 3相较2.5的提升非常满意,完全符合预期。回报并非像早期那样呈指数级爆炸式增长,但它带来的实用性增量和可靠性提升仍远高于我们的边际成本,仍值得我们全力投入。在抵达AGI所需的1至2次研究突破到来之前,通过最大规模的基础模型持续推动性能,仍然是当前最有效的策略。我们相信,规模定律依然有效。

罗兹:我们是否正处于AI泡沫之中?

哈萨比斯:这是一个过于二元的问题。某些领域(例如数十亿美元种子轮却无实际产品、只讲概念的公司)确实存在泡沫,估值与实际收入不成比例。但谷歌同时拥有短期变现(搜索、Workspace、云TPU)与长期万亿级新赛道(机器人、游戏、药物发现、材料科学等)。

例如,我们的AlphaFold等专业模型正在药物发现领域创造实际价值,这是一个与消费者AI估值无关的万亿级市场。无论短期泡沫是否存在,我们都将胜出:繁荣时抓住机会,收缩时凭借全栈优势和深厚的现金流更具韧性。

牛顿:如果现在是感恩节聚会,有人想转移政治话题,你会建议他们用Gemini 3展示什么功能来惊艳全场?

伍德沃德:我不知道它能不能拯救感恩节,但它能带来欢笑。拿出手机自拍,然后让Gemini 3疯狂编辑照片。

我们Gemini中的图像模型在全球范围内仍然是最强的。你可以即时将家人合影变成任何滑稽的场景、风格或时代背景。绝对能引发全场大笑。随后,当你展示它能如何帮你撰写一封得体的辞职信或生成一个定制化的节日食谱计算器时,他们自然就会探索其他新功能了。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)