扫码下载 APP
qrCode
更多下载方式
今天不再提醒

Google 正式推出 Gemini 3:目前最强大的 AI Agentic 与 Vibe Coding 大型语言模型

robot
摘要生成中

Google 今日正式发表全新一代大型语言模型 Gemini 3,并同步在 Gemini App、SearchAI 模式、AI Studio、Vertex AI 等多项服务中推出 Gemini 3 Pro。Google 表示,Gemini 3 是目前最强的多模态与推理模型,在科学、数学、视觉理解与长程规划等多项重要 AI 基准测试上大幅领先前代。除了 Vibe Coding 外,Gemini 3 也是最强的 Agentic 模型,这意味着 AI 可以帮你主动完成任务。

Google 执行长:Gemini 理解力已从文字图片进化成能「读空气」

Google 执行长 Sundar Pichai 指出,自 Gemini 系列推出近两年以来,AI 产品已触及全球二十亿用户。每一代 Gemini 都建立在上一代的成果之上,Gemini 1 在原生多模态与长上下文方面带来突破,能处理更多也更复杂的资讯。Gemini 2 奠定代理 (agentic) 能力,推动推理与思考极限。

而现在,Gemini 3:我们最智慧的一代模型,集结 Gemini 系列所有能力,让你能把任何想法带到现实。它在推理方面达到 SOTA (state-of-the-art),能掌握深度与细腻度。无论是捕捉创造性想法中的微妙线索,或拆解层层重叠的艰难问题。

Gemini 3 也能更好理解你的请求背后的上下文与意图,让你不用苦想提示就能得到真正需要的答案。令人惊叹的是,短短两年内,AI 已从能阅读文字与图片,进化到能读懂场面与情境 (reading the room)。

推理能力突破:Gemini 3 在 LMArena、科学推理与数学测试皆夺冠

Gemini 3 Pro 在最新评测中刷新多项纪录:

LMArena 榜首:取得 1501 Elo 分数。

Humanity’s Last Exam(学术推理):37.5%(无工具)。

GPQA Diamond(科学推理):91.9%。

MathArena Apex(高难度数学):23.4%。

MMMU-Pro:81%

Video-MMMU:87.6%

SimpleQA Verified:72.1%(提升事实准确度)

这些结果代表 Gemini 3 Pro 在科学、数学、多模态推理中具备高度可靠性,可处理极为复杂的问题。

Google 同步发布 Gemini 3 Deep Think 推理模式,在 ARC-AGI-2(含程式执行)取得 45.1%,推理能力更上一层。其他亮点还包括:

Humanity’s Last Exam:41.0%

GPQA Diamond:93.8%

Gemini 3:更强的学习、执行与规划能力

Gemini 3 是目前最强的 vibe coding 与代理式编程模型,具体评分包括:

WebDev Arena:1487 Elo(最高)

Terminal-Bench 2.0:54.2%(工具操作能力)

SWE-bench Verified:76.2%(大型程式任务)

它也支援 Google 全新的 Google Antigravity 代理式开发平台,AI 能自主规划、编写程式、操作终端机、验证程式、操控浏览器等多步骤任务。Agentic AI 指的是能主动采取行动、规划多步骤任务、并自主操作工具的 AI 系统。核心概念是:AI 不再只是回答,而是能像助手一样,主动完成任务。

举例来说,当我输入:「帮我抓今日 ETH 价格并更新 Google Sheet。」,Agentic AI 自己去查 API 并更新 Google Sheet。

大型语言模型意味着使用者输入一样的内容,可能因模型运算出不同结果而有截然不同的输出。而 Gemini 3 在 Vending-Bench 2 中可连续一年度保持一致决策,这意味 Gemini 3 能协助你完成:

预约本地服务

整理 Gmail

处理多步骤工作流程

Gemini Agent 今天起向 Google AI Ultra 使用者开放。且 Google 表示,Gemini 3 是目前经过最多安全审查的模型,强化抗「拍马屁式生成」、防 Prompt Injection 与网路攻击。Deep Think 模式则将在完成额外安全测试后,提供给 Google AI Ultra 订阅者。

这篇文章 Google 正式推出 Gemini 3:目前最强大的 AI Agentic 与 Vibe Coding 大型语言模型 最早出现于 链新闻 ABMedia。

ETH3.37%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)