Microsoft đã khiến GPT và Claude hoạt động cùng nhau—và kết quả vượt xa mọi công cụ nghiên cứu AI hiện có

Tóm tắt nhanh

  • Microsoft đã phát hành hai chế độ khác nhau ghép GPT và Claude để nâng cao chất lượng nghiên cứu AI.
  • Critique khiến các mô hình cộng tác, còn Council để chúng làm việc song song, trong khi một thẩm phán thứ ba tìm ra các điểm khác biệt.
  • Quy trình hai mô hình này khắc phục các hiện tượng bịa đặt (hallucinations), trích dẫn yếu, và các vấn đề khác liên quan đến nghiên cứu AI chỉ dùng một mô hình.

AI nghiên cứu chuyên sâu (Deep research AI) đã là một trong những cuộc đua nóng nhất trong công nghệ năm nay. Google đã công bố tác nhân nghiên cứu cho Gemini vào tháng 12 năm 2024, OpenAI phát hành tác nhân nghiên cứu của riêng mình vào tháng 2 năm 2025, xAI cũng làm theo, Perplexity tiếp tục tập trung mạnh mẽ, và Claude của Anthropic đã xây dựng được lượng người theo dõi trung thành trong giới chuyên nghiệp, những người cần các câu trả lời chi tiết và có trích dẫn, đồng thời ra mắt tác nhân của mình vào tháng 4 năm ngoái.

Mọi công ty đều đang cố gắng thuyết phục bạn rằng mô hình AI đơn lẻ của họ là nhà nghiên cứu thông minh nhất trong căn phòng. Microsoft vừa nói: Tại sao phải chọn một?

Công ty công bố hai tính năng mới vào thứ Hai cho công cụ Researcher của Copilot—được gọi là Critique và Council—đưa GPT của OpenAI và Claude của Anthropic vào làm cùng một nhiệm vụ nghiên cứu theo trình tự. Kết quả, theo thử nghiệm của Microsoft đối chiếu với một chuẩn điểm chuẩn của ngành, đạt điểm cao hơn mọi hệ thống có trong bài test đó, bao gồm cả các mô hình từ những công ty AI hàng đầu.

Giới thiệu Critique, một hệ thống nghiên cứu chuyên sâu đa mô hình mới trong M365 Copilot.

Bạn có thể sử dụng nhiều mô hình cùng nhau để tạo ra các phản hồi và báo cáo tối ưu. pic.twitter.com/m4RlQmCKzs

— Satya Nadella (@satyanadella) March 30, 2026

“Critique là một hệ thống nghiên cứu chuyên sâu đa mô hình mới được thiết kế cho các tác vụ nghiên cứu phức tạp. Nó tách biệt giai đoạn tạo sinh khỏi khâu đánh giá và tận dụng sự kết hợp các mô hình từ Frontier labs, bao gồm Anthropic và OpenAI,” Microsoft giải thích. “Một mô hình dẫn dắt giai đoạn tạo sinh—lập kế hoạch cho nhiệm vụ, lặp qua việc truy xuất (retrieval), và tạo bản nháp ban đầu—trong khi mô hình thứ hai tập trung vào việc rà soát và tinh chỉnh, đóng vai trò như một người đánh giá am hiểu trước khi báo cáo cuối cùng được tạo ra.”

Đây là vấn đề cơ bản mà Critique được thiết kế để khắc phục: Mọi công cụ nghiên cứu AI ngày nay đều hoạt động theo cùng một cách. Bạn đặt một câu hỏi, một mô hình lập kế hoạch tìm kiếm, rà quét các nguồn, viết một báo cáo, rồi trả lại cho bạn. Mô hình đơn lẻ đó làm mọi thứ mà không có ai kiểm tra công việc của nó.

Điều này có thể khiến một số hiện tượng bịa đặt lọt vào, một số sai sót trong trích dẫn, các tuyên bố bịa hoặc không chính xác, v.v.



Critique phá vỡ quy trình đó thành hai phần. GPT xử lý giai đoạn đầu—nó lập kế hoạch nghiên cứu, lấy nguồn và viết bản nháp ban đầu. Sau đó Claude vào vai một biên tập viên nghiêm ngặt, rà soát báo cáo về độ chính xác theo sự thật, chất lượng trích dẫn, và việc câu trả lời có thực sự giải quyết đúng điều được hỏi hay không. Chỉ sau phần rà soát này thì báo cáo cuối cùng mới đến tay người dùng. Microsoft cho biết các vai trò cũng có thể chạy theo hướng ngược lại trong tương lai, với Claude soạn thảo và GPT thực hiện phản biện, dù hiện tại thì GPT đi trước.

Trên chuẩn DRACO—một bài kiểm tra chuẩn hóa bao gồm 100 tác vụ nghiên cứu phức tạp trên 10 lĩnh vực bao gồm y học, luật và công nghệ—Copilot khi dùng Critique đạt 57.4 điểm. Trong khi đó, Claude Opus của Anthropic chỉ riêng nó đạt 42.7. Hệ thống kết hợp của Microsoft vượt kết quả tốt nhất tiếp theo gần 14%.

Hình ảnh: Microsoft

Những cải thiện lớn nhất xuất hiện ở độ rộng phân tích và chất lượng trình bày, đồng thời độ chính xác theo sự thật cũng tăng lên đáng kể.

Tính năng thứ hai, Council, tiếp cận theo một hướng khác cho cùng một vấn đề. Thay vì để một mô hình rà soát công việc của mô hình kia, Council chạy GPT và Claude đồng thời và đặt toàn bộ báo cáo của họ cạnh nhau. Rồi một mô hình “thẩm phán” thứ ba đọc cả hai và viết một bản tóm tắt, giải thích chỗ hai AI đồng ý, chỗ chúng khác nhau, và mỗi bên có góc nhìn độc đáo nào mà bên kia bỏ lỡ. Việc đối chiếu thủ công các công cụ nghiên cứu AI trước đây là thứ người dùng phải tự làm.

Trong Critique, các mô hình về cơ bản cộng tác với nhau, trong khi ở Council thì các mô hình cạnh tranh với nhau.

Critique là trải nghiệm mặc định trong Researcher, còn Council yêu cầu bạn chọn “Model Council” trong bộ chọn để kích hoạt chế độ xem song song. Cả hai tính năng hiện đều có sẵn cho người dùng đã đăng ký tham gia chương trình Frontier của Microsoft, kênh truy cập sớm cho các năng lực mới nhất của Copilot. Cần có giấy phép Microsoft 365 Copilot ($30/người/tháng), nhưng người dùng cũng phải đăng ký Frontier để truy cập.

Hình ảnh: Microsoft

OpenAI và Microsoft có một quan hệ đối tác trị giá hàng tỷ đô la, nhưng cược của Microsoft là không có một mô hình đơn lẻ nào có thể giữ vị trí dẫn đầu lâu, và giá trị thực sự nằm ở lớp điều phối—lớp điều hướng tác vụ đến bất kỳ kết hợp nào hoạt động tốt nhất.

Bản tin Daily Debrief

Bắt đầu mỗi ngày với những câu chuyện tin tức hàng đầu ngay lúc này, kèm theo các mục nội dung gốc, một podcast, video và hơn thế nữa.

Email của bạn

Nhận nó!

Nhận nó!

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.29KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$2.29KNgười nắm giữ:2
    0.14%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Ghim