Inception Labs 推出 Mercury 2,這是一款基於擴散的推理模型,能夠實現每秒超過 1,000 個代幣

簡要介紹

Inception Labs 已推出 Mercury 2,一款基於擴散的推理模型,能夠每秒生成超過 1,000 個標記,速度是同類模型的三倍。

Inception Labs Unveils Mercury 2: A Diffusion-Based LLM Delivering Over 1,000 Tokens Per Second For Low-Latency AI Applications

Inception Labs,一家人工智能初創公司,推出了 Mercury 2,一款基於擴散的大型語言模型(LLM),旨在顯著加快生產型人工智能應用中的推理任務。

與傳統的自回歸模型逐步生成文本不同,Mercury 2 採用並行優化流程,同時產生多個標記,並在少量步驟內收斂,使其在 NVIDIA Blackwell GPU 上的速度超過每秒 1,000 個標記——大約是同價位競爭模型的三倍。

該模型針對複雜人工智能工作流程中的實時響應進行優化,這些流程中延遲會在多次推理調用、檢索管道和代理循環中累積。Mercury 2 在降低延遲的同時保持高推理質量,使開發者、語音人工智能系統、搜索引擎及其他互動應用能在不受序列生成延遲影響的情況下,達到推理級別的性能。它支持可調整推理、128K 標記上下文窗口、與架構對齊的 JSON 輸出以及原生工具集成,為多種生產部署提供彈性。

Mercury 2 實現低延遲 AI,應用於編碼、語音與搜索工作流程

報告強調了多個對低延遲推理至關重要的應用場景。在編碼與編輯工作流程中,Mercury 2 提供快速的自動完成和下一步編輯建議,無縫融入開發者的思考過程。在代理工作流程中,模型允許進行更多推理步驟而不超出延遲預算,提升自動決策的質量與深度。語音人工智能與互動應用則能在自然語音節奏中產生推理質量的回應,提升實時對話體驗。此外,Mercury 2 支持多跳搜索與檢索管道,實現快速摘要、重新排序與推理,且不影響反應時間。

早期用戶反映其吞吐量與用戶體驗有顯著提升。Mercury 2 被描述為速度至少是 GPT-5.2 的兩倍,同時保持競爭力的質量,應用範圍涵蓋實時轉錄清理、互動人機界面、自主廣告優化與語音AI虛擬形象等。

該模型兼容 OpenAI API,可無需大量修改即可集成到現有技術堆疊中,Inception Labs 亦提供企業評估、性能驗證與工作負載專用部署指導。Mercury 2 代表了基於擴散的 LLM 的一大進步,重新定義了在生產型 AI 環境中推理質量與延遲之間的平衡。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)