Inception Labs запускає Mercury 2, модель розуміння на основі дифузії, яка досягає понад 1 000 токенів за секунду

2026-02-26 09:42:03

Коротко

Inception Labs запустила Mercury 2 — модель на основі дифузії для логічних висновків, здатну генерувати понад 1000 токенів за секунду, що у три рази швидше за подібні моделі.

Inception Labs, стартап у сфері штучного інтелекту, представила Mercury 2 — модель великого мовлення (LLM) на основі дифузії, створену для значного прискорення логічних завдань у виробничих AI-додатках.

На відміну від традиційних автогресивних моделей, які генерують текст послідовно, Mercury 2 використовує паралельний процес уточнення, одночасно створюючи кілька токенів і сходячись до кінця за кілька кроків, що дозволяє досягати швидкості понад 1000 токенів за секунду на GPU NVIDIA Blackwell — приблизно у три рази швидше за конкурента в тому ж ціновому діапазоні.

Модель оптимізована для роботи в реальному часі у складних AI-процесах, де затримки накопичуються через кілька викликів інференції, системи пошуку та цикли агентів. Mercury 2 зберігає високу якість логічних висновків при зменшенні затримок, що дозволяє розробникам, голосовим AI-системам, пошуковим системам та іншим інтерактивним додаткам працювати на рівні логічних можливостей без затримок, характерних для послідовної генерації. Підтримує функції налаштовуваного логічного висновку, контекстні вікна на 128 тисяч токенів, JSON-вивід, що відповідає схемі, та інтеграцію з нативними інструментами, забезпечуючи гнучкість для різних виробничих розгортань.

Mercury 2 забезпечує низьку затримку AI у процесах кодування, голосу та пошуку

У звіті наведено кілька сценаріїв використання, де критично важлива низька затримка логічних висновків. У процесах кодування та редагування Mercury 2 швидко пропонує автозаповнення та наступні підказки, що легко інтегруються з мисленням розробників. У агентних процесах модель дозволяє виконувати більше кроків інференції без перевищення лімітів затримки, покращуючи якість та глибину автоматизованих рішень. Голосові AI та інтерактивні додатки отримують переваги від здатності генерувати відповіді високої якості у природному мовленні, покращуючи досвід користувачів у реальному часі. Крім того, Mercury 2 підтримує багатоступеневий пошук і системи витягування інформації, що дозволяє швидко підсумовувати, перерейтингу та логічно обґрунтовувати без втрати швидкості відповіді.

Ранні користувачі відзначають значне покращення пропускної здатності та досвіду користувачів. Mercury 2 назвали щонайменше вдвічі швидшим за GPT-5.2 при збереженні конкурентної якості, з застосуваннями у реальному часі для обробки транскриптів, інтерактивних інтерфейсів людина-комп’ютер, автономної оптимізації реклами та голосових AI-аватарів.

Модель сумісна з API OpenAI, що дозволяє інтегрувати її у вже існуючі системи без значних змін, а Inception Labs пропонує підтримку для корпоративних оцінок, перевірки продуктивності та рекомендацій щодо розгортання під конкретні завдання. Mercury 2 є кроком уперед у дифузійних LLM, переосмислюючи баланс між якістю логічних висновків і затримками у виробничих AI-середовищах.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.