Microsoft Membuat GPT dan Claude Bekerja Sama—Dan Hasilnya Mengalahkan Setiap Alat Riset AI yang Ada

Singkatnya

  • Microsoft merilis dua mode berbeda yang memasangkan GPT dan Claude untuk meningkatkan kualitas riset AI.
  • Critique membuat model-model berkolaborasi, sedangkan Council membuat mereka bekerja secara paralel sementara juri ketiga menemukan perbedaan-perbedaannya.
  • Alur kerja dua-model ini memperbaiki halusinasi, sitasi yang lemah, dan masalah lain yang terkait dengan riset AI berbasis satu model.

Deep research AI telah menjadi salah satu perlombaan senjata terpanas di bidang teknologi tahun ini. Google mengumumkan agen risetnya untuk Gemini pada Desember 2024, OpenAI merilis agen risetnya sendiri pada Februari 2025, xAI menyusul, Perplexity menguatkan komitmennya, dan Claude milik Anthropic membangun basis pengikut setia di kalangan profesional yang membutuhkan jawaban terperinci dan bersitasi, sambil memperkenalkan agennya pada April tahun lalu.

Setiap perusahaan terus mencoba meyakinkan Anda bahwa model AI tunggal mereka adalah peneliti paling cerdas di ruangan. Microsoft baru saja berkata: Kenapa harus memilih satu?

Perusahaan itu mengumumkan dua fitur baru pada Senin untuk alat Researcher milik Copilot—yang disebut Critique dan Council—yang membuat GPT milik OpenAI dan Claude milik Anthropic bekerja pada tugas riset yang sama secara berurutan. Hasilnya, menurut pengujian Microsoft terhadap benchmark industri, mendapat skor lebih tinggi daripada setiap sistem yang ikut dalam pengujian itu, termasuk model dari perusahaan-perusahaan AI teratas.

Memperkenalkan Critique, sistem deep research multi-model baru di M365 Copilot.

Anda dapat menggunakan beberapa model bersama untuk menghasilkan respons dan laporan yang optimal. pic.twitter.com/m4RlQmCKzs

— Satya Nadella (@satyanadella) March 30, 2026

“Critique adalah sistem deep research multi model baru yang dirancang untuk tugas riset kompleks. Ia memisahkan proses generasi dari evaluasi dan memanfaatkan kombinasi model dari Frontier labs, termasuk Anthropic dan OpenAI,” jelas Microsoft. “Satu model memimpin fase generasi—merencanakan tugas, melakukan iterasi melalui pengambilan (retrieval), dan menghasilkan draf awal—sementara model kedua berfokus pada peninjauan dan penyempurnaan, bertindak sebagai peninjau ahli sebelum laporan final diproduksi.”

Berikut masalah mendasar yang dirancang untuk diperbaiki oleh Critique: Setiap alat riset AI saat ini bekerja dengan cara yang sama. Anda mengajukan pertanyaan, satu model merencanakan pencarian, menyisir sumber, menulis laporan, lalu mengembalikannya kepada Anda. Satu model itu melakukan semuanya tanpa ada yang memeriksa pekerjaannya.

Ini dapat menyebabkan beberapa halusinasi lolos, beberapa kesalahan pada sitasi, klaim palsu atau tidak akurat, dll.



Critique memutus alur kerja itu menjadi dua. GPT menangani fase pertama—ia merencanakan riset, mengambil sumber, dan menulis draf awal. Lalu Claude masuk sebagai editor yang ketat, meninjau laporan untuk akurasi faktual, kualitas sitasi, dan apakah jawaban benar-benar menanggapi apa yang diminta. Hanya setelah peninjauan itu, laporan final sampai ke pengguna. Microsoft mengatakan peran-peran tersebut nantinya bisa dijalankan juga dalam arah yang berlawanan, dengan Claude menyusun draf dan GPT mengkritik, meski untuk saat ini GPT yang lebih dulu.

Pada benchmark DRACO—uji standar yang mencakup 100 tugas riset kompleks di 10 domain termasuk kedokteran, hukum, dan teknologi—Copilot dengan Critique mencetak 57.4. poin, sedangkan Anthropic’s Claude Opus 4.6 saja menembus 42.7. Sistem gabungan Microsoft mengungguli hasil terbaik berikutnya dengan hampir 14%.

Gambar: Microsoft

Kenaikan terbesar muncul pada keluasan analisis dan kualitas presentasi, sementara akurasi faktual juga mencatat peningkatan yang signifikan.

Fitur kedua, Council, mengambil pendekatan berbeda untuk masalah yang sama. Alih-alih membuat satu model meninjau pekerjaan model yang lain, Council menjalankan GPT dan Claude secara bersamaan dan menempatkan seluruh laporan mereka berdampingan. Lalu model “juri” ketiga membaca keduanya dan menulis ringkasan yang menjelaskan di mana dua AI sepakat, di mana mereka berbeda, serta sudut unik apa yang masing-masing tangkap yang tidak disadari yang lain. Membandingkan alat riset AI secara manual adalah sesuatu yang selama ini harus dilakukan sendiri oleh para pengguna.

Dalam Critique, model-model pada dasarnya berkolaborasi satu sama lain, sedangkan dalam Council model-model berkompetisi satu sama lain.

Critique adalah pengalaman default di Researcher, sedangkan Council mengharuskan Anda memilih “Model Council” dari pemilih untuk mengaktifkan mode berdampingan. Kedua fitur saat ini tersedia untuk pengguna yang terdaftar dalam program Frontier milik Microsoft, yaitu kanal early-access untuk kapabilitas terbaru Copilot. Diperlukan lisensi Microsoft 365 Copilot ($30/user/bulan), tetapi pengguna juga perlu terdaftar di Frontier untuk mengaksesnya.

Gambar: Microsoft

OpenAI dan Microsoft memiliki kemitraan bernilai miliaran dolar, tetapi taruhan Microsoft adalah bahwa tidak ada satu model pun yang akan tetap berada di puncak dalam jangka panjang, dan bahwa nilai sesungguhnya ada pada lapisan orkestrasi yang mengarahkan tugas ke kombinasi mana pun yang paling bekerja.

Buletin Daily Debrief

Mulailah setiap hari dengan berita-berita utama teratas saat ini, plus fitur-fitur orisinal, sebuah podcast, video, dan lainnya.

Email Anda

Dapatkan!

Dapatkan!

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan