Inception Labs Meluncurkan Mercury 2, Model Penalaran Berbasis Difusi yang Mencapai Lebih dari 1.000 Token Per Detik

2026-02-26 09:42:03

Secara Singkat

Inception Labs telah meluncurkan Mercury 2, model penalaran berbasis difusi yang mampu menghasilkan lebih dari 1.000 token per detik, tiga kali lebih cepat dari model sejenis.

Inception Labs, sebuah startup AI, telah meluncurkan Mercury 2, Large Language Model (LLM) berbasis difusi yang dirancang untuk mempercepat secara signifikan tugas penalaran dalam aplikasi AI produksi.

Berbeda dengan model autoregressive tradisional yang menghasilkan teks secara berurutan, Mercury 2 menggunakan proses penyempurnaan paralel, menghasilkan beberapa token sekaligus dan konvergen dalam beberapa langkah kecil, memungkinkan kecepatan lebih dari 1.000 token per detik di GPU NVIDIA Blackwell—sekitar tiga kali lebih cepat dari model pesaing dalam kisaran harga yang sama.

Model ini dioptimalkan untuk responsivitas waktu nyata dalam alur kerja AI yang kompleks, di mana latensi bertambah di setiap panggilan inferensi, pipeline pengambilan data, dan loop agenik. Mercury 2 mempertahankan kualitas penalaran tinggi sambil mengurangi latensi, memungkinkan pengembang, sistem AI suara, mesin pencari, dan aplikasi interaktif lainnya beroperasi dengan performa setara penalaran tanpa penundaan yang biasanya terjadi pada generasi berurutan. Fitur-fiturnya meliputi penalaran yang dapat disesuaikan, jendela konteks 128K token, output JSON yang sesuai skema, dan integrasi alat bawaan, memberikan fleksibilitas untuk berbagai penerapan produksi.

Mercury 2 Memungkinkan AI Berlatensi Rendah di Berbagai Alur Kerja Kode, Suara, dan Pencarian

Laporan ini menyoroti beberapa kasus penggunaan di mana penalaran berlatensi rendah sangat penting. Dalam alur kerja pengkodean dan penyuntingan, Mercury 2 memberikan saran otomatis dan saran edit berikutnya yang cepat dan terintegrasi mulus dengan proses berpikir pengembang. Dalam alur kerja agenik, model ini memungkinkan lebih banyak langkah inferensi tanpa melebihi batas latensi, meningkatkan kualitas dan kedalaman pengambilan keputusan otomatis. Aplikasi berbasis suara dan interaktif mendapatkan manfaat dari kemampuannya menghasilkan respons berkualitas penalaran dalam irama bicara alami, meningkatkan pengalaman pengguna dalam percakapan waktu nyata. Selain itu, Mercury 2 mendukung pipeline pencarian dan pengambilan data multi-lompatan, memungkinkan ringkasan cepat, peringkat ulang, dan penalaran tanpa mengorbankan waktu respons.

Pengguna awal melaporkan peningkatan signifikan dalam throughput dan pengalaman pengguna. Mercury 2 dikatakan setidaknya dua kali lebih cepat dari GPT-5.2 sambil mempertahankan kualitas yang kompetitif, dengan aplikasi meliputi pembersihan transkrip waktu nyata, antarmuka manusia-komputer interaktif, optimalisasi iklan otomatis, dan avatar AI berbasis suara.

Model ini kompatibel dengan API OpenAI, memungkinkan integrasi ke dalam tumpukan yang ada tanpa modifikasi besar, dan Inception Labs menawarkan dukungan untuk evaluasi perusahaan, validasi kinerja, dan panduan penerapan khusus beban kerja. Mercury 2 merupakan langkah maju dalam LLM berbasis difusi, mendefinisikan ulang keseimbangan antara kualitas penalaran dan latensi dalam lingkungan AI produksi.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.