Inception Labs 推出 Mercury 2,这是一款基于扩散的推理模型,处理速度超过每秒 1000 个令牌

简要介绍

Inception Labs 已推出 Mercury 2,一款基于扩散的推理模型,能够每秒生成超过 1000 个标记,比同类模型快三倍。

Inception Labs Unveils Mercury 2: A Diffusion-Based LLM Delivering Over 1,000 Tokens Per Second For Low-Latency AI Applications

Inception Labs 是一家人工智能初创公司,推出了 Mercury 2,一款基于扩散的大型语言模型(LLM),旨在显著加快生产环境中推理任务的速度。

与传统的自回归模型按序生成文本不同,Mercury 2 采用并行优化流程,能够同时生成多个标记,并在少量步骤内收敛,使其在 NVIDIA Blackwell GPU 上的速度超过每秒 1000 个标记——大约是同价位竞争模型的三倍。

该模型针对复杂 AI 工作流程中的实时响应进行了优化,在多个推理调用、检索管道和智能环路中,延迟会逐步累积。Mercury 2 在保持高推理质量的同时,降低了延迟,使开发者、语音 AI 系统、搜索引擎及其他交互式应用能够在无需等待序列生成延迟的情况下,达到推理级别的性能。它支持可调推理、128K 标记上下文窗口、符合架构的 JSON 输出和原生工具集成,为多种生产部署提供了灵活性。

Mercury 2 实现编码、语音和搜索工作流程中的低延迟 AI

报告强调了多个对低延迟推理至关重要的应用场景。在编码和编辑工作流程中,Mercury 2 提供快速的自动补全和下一步编辑建议,能无缝融入开发者的思考流程。在智能环路中,该模型允许进行更多推理步骤而不超出延迟预算,提升自动决策的质量和深度。语音 AI 和交互式应用也能从其在自然语音节奏中生成推理质量响应的能力中受益,增强实时对话场景中的用户体验。此外,Mercury 2 支持多跳搜索和检索管道,实现快速总结、重排序和推理,而不会影响响应时间。

早期用户反馈显示,Mercury 2 在吞吐量和用户体验方面有显著提升。据称其速度至少是 GPT-5.2 的两倍,同时保持竞争力的质量,应用范围涵盖实时转录清理、交互式人机界面、自主广告优化和语音 AI 头像等。

该模型兼容 OpenAI API,可无缝集成到现有技术栈中,无需大量修改,Inception Labs 还提供企业评估、性能验证和工作负载特定部署指导。Mercury 2 代表了基于扩散的 LLM 迈出的重要一步,重新定义了生产环境中推理质量与延迟之间的平衡。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)