Together AI Meluncurkan Platform Voice Agent Dengan Latensi Di Bawah 700ms

Lawrence Jengar

13 Mar 2026 01:57

Together AI memperkenalkan infrastruktur agen suara terpadu dengan integrasi Deepgram dan Cartesia, menargetkan penerapan perusahaan dengan latensi akhir-ke-akhir di bawah 700ms.

Together AI meluncurkan platform agen suara terpadu yang menjaga proses speech-to-text, model bahasa, dan text-to-speech pada klaster infrastruktur yang sama. Startup cloud AI senilai $3,3 miliar ini mengklaim pengaturan ini memberikan latensi akhir-ke-akhir di bawah 700 milidetik—cukup cepat untuk alur percakapan alami.

Platform ini terintegrasi secara native dengan Deepgram untuk transkripsi dan Cartesia untuk sintesis suara, keduanya berjalan di server bersama Together daripada mengirim audio ke berbagai penyedia cloud.

Mengapa Co-Location Penting untuk Suara

Sebagian besar sistem suara produksi menggabungkan vendor terpisah untuk setiap tahap pipeline. Audio dikirim ke satu penyedia untuk transkripsi, lalu dialihkan ke penyedia lain untuk respons LLM, kemudian dikirim ke penyedia ketiga untuk sintesis suara. Setiap perpindahan menambah latensi jaringan dan titik kegagalan.

Tawaran Together: simpan semuanya di data center yang sama. Perusahaan melaporkan latensi di bawah 500ms dalam kondisi optimal, meskipun angka 700ms merupakan batas maksimum yang mereka nyatakan untuk pemrosesan akhir-ke-akhir.

“ Agen suara hidup atau mati karena latensi, dan setiap lompatan jaringan antar penyedia adalah tempat di mana pengalaman bisa terganggu,” kata Abe Pursell, VP Kemitraan Deepgram.

Fleksibilitas Model Tanpa Patchwork

Platform ini mendukung Whisper Large v3, Minimax Speech 2.6 Turbo, Rime Arcana, dan Kokoro bersama katalog LLM lengkap Together. Pengembang dapat mengganti komponen tanpa membangun ulang integrasi—berguna untuk tim yang menguji karakter suara berbeda atau akurasi transkripsi untuk kasus penggunaan tertentu.

Cartesia membawa model TTS Sonic-3 dan Sonic-2 ke platform. Deepgram menyumbang Nova-3, Nova-3 Multilingual untuk transkripsi, Flux untuk STT percakapan, dan Aura-2 untuk sintesis.

Berbeda dengan sistem speech-to-speech yang tidak transparan, pendekatan modular Together mempertahankan akses ke transkrip sementara dan teks respons. Tim dapat memeriksa, memodifikasi, dan mengarahkan data di tengah aliran—persyaratan untuk banyak alur kerja kepatuhan perusahaan.

Persyaratan Perusahaan dan Penggunaan Produksi

Platform ini menargetkan industri yang diatur dengan opsi penyimpanan data nol, sertifikasi SOC 2 Tipe II, kepatuhan HIPAA, dan residensi data khusus. Decagon, yang menjalankan agen suara layanan pelanggan untuk pertanyaan penagihan dan troubleshooting teknis, sudah menggunakan stack ini.

Together AI mengumpulkan dana sebesar $305 juta pada Februari 2025 dengan valuasi $3,3 miliar, dan laporan menyebutkan perusahaan kini sedang dalam pembicaraan untuk mengumpulkan dana di valuasi $7,5 miliar. Perusahaan telah melampaui 450.000 pengembang dan mencapai pendapatan tahunan lebih dari $100 juta.

Peluncuran platform suara ini menandai ekspansi Together dari bisnis inferensi LLM inti ke pasar AI suara yang berkembang, di mana latensi dan keandalan tetap menjadi masalah utama untuk penerapan produksi.

Sumber gambar: Shutterstock

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan