Microsoft заставила GPT и Claude работать вместе — и результат превосходит все существующие инструменты для исследований ИИ

Коротко

  • Microsoft выпустила два разных режима, которые объединяют GPT и Claude для повышения качества исследований ИИ.
  • Critique заставляет модели сотрудничать, а Council — работать параллельно, пока третьий судья находит расхождения.
  • Этот двухмодельный рабочий процесс устраняет галлюцинации, слабые цитирования и другие проблемы, связанные с исследованиями ИИ на основе одной модели.

Глубокий исследовательский ИИ в этом году стал одной из самых жарких гонок вооружений в техиндустрии. Google объявила свой исследовательский агент для Gemini в декабре 2024 года, OpenAI выпустила собственный исследовательский агент в феврале 2025, xAI последовала примеру, Perplexity удвоила ставку, а Claude от Anthropic завоевал лояльную аудиторию среди профессионалов, которым нужны подробные ответы с цитатами, представив свой агент в прошлом году в апреле.

Каждая компания пытается убедить вас, что ее единственная модель ИИ — самый умный исследователь в комнате. Microsoft только что сказала: Зачем выбирать одного?

Компания объявила в понедельник о двух новых функциях для инструмента Copilot’s Researcher — Critique и Council — которые ставят GPT от OpenAI и Claude от Anthropic работать над одной и той же исследовательской задачей последовательно. В результате, по данным тестирования Microsoft против отраслевого бенчмарка, система набирает больше, чем любая система, включенная в этот тест, включая модели от ведущих компаний в сфере ИИ.

Представляем Critique — новую многомодельную систему глубоких исследований в M365 Copilot.

Вы можете использовать несколько моделей вместе, чтобы генерировать оптимальные ответы и отчеты. pic.twitter.com/m4RlQmCKzs

— Сатья Наделла (@satyanadella) 30 марта 2026 г.

«Critique — это новая многомодельная система глубоких исследований, предназначенная для сложных исследовательских задач. Она отделяет генерацию от оценки и использует комбинацию моделей из Frontier labs, включая Anthropic и OpenAI», — объясняет Microsoft. «Одна модель ведет фазу генерации: планирует задачу, проходит итерациями через извлечение и создает первоначальный черновик, а вторая модель фокусируется на проверке и доработке, выступая как экспертный рецензент до того, как будет подготовлен финальный отчет».

Вот основная проблема, которую призван исправить Critique: Сегодня каждый инструмент для исследований ИИ работает одинаково. Вы задаете вопрос, одна модель планирует поиск, выискивает источники, пишет отчет и возвращает его вам. Эта одна модель делает все без того, чтобы кто-то проверял ее работу.

Из-за этого в итоге могут проскользнуть некоторые галлюцинации, ошибки в цитированиях, фальшивые или неточные утверждения и т.д.



Critique ломает этот рабочий процесс на две части. GPT отвечает за первую фазу — он планирует исследования, извлекает источники и пишет первоначальный черновик. Затем в дело вступает Claude в роли строгого редактора, проверяя отчет на фактическую точность, качество цитирования и то, действительно ли ответил на то, о чем спрашивали. Только после этой проверки финальный отчет попадает к пользователю. Microsoft говорит, что роли могут в итоге работать и в обратном направлении — Claude будет готовить черновик, а GPT выполнять критику, — однако пока первым идет GPT.

На бенчмарке DRACO — стандартизированном тесте, охватывающем 100 сложных исследовательских задач в 10 областях, включая медицину, право и технологии — Copilot с Critique набрал 57.4. балла. В одиночку Claude Opus от Anthropic набирает 4.6, достигнув 42.7. Совмещенная система Microsoft обходит следующий лучший результат почти на 14%.

Изображение: Microsoft

Самые большие приросты проявились в широте аналитики и качестве представления, при этом фактическая точность тоже показала заметное улучшение.

Вторая функция — Council — подходит к той же проблеме иначе. Вместо того чтобы заставлять одну модель проверять работу другой, Council запускает GPT и Claude одновременно и ставит их полные отчеты бок о бок. Затем третья модель «судья» читает оба отчета и пишет сводку, объясняя, где две ИИ-системы согласились, где разошлись и какие уникальные ракурсы смог поймать каждый из них, чего не заметил другой. Сравнение инструментов для исследований ИИ вручную — то, что пользователям приходилось делать самим до сих пор.

В Critique модели фактически сотрудничают друг с другом, тогда как в Council модели конкурируют друг с другом.

Critique является настройкой по умолчанию в Researcher, а Council требует, чтобы вы выбрали «Model Council» в переключателе, чтобы включить режим бок о бок. Обе функции сейчас доступны пользователям, записавшимся в программу Microsoft Frontier — канал раннего доступа к самым новым возможностям Copilot. Лицензия Microsoft 365 Copilot ($30/пользователь/месяц) требуется, но пользователям также нужно быть зарегистрированными в Frontier, чтобы получить доступ к ним.

Изображение: Microsoft

OpenAI и Microsoft имеют партнерство на миллиарды долларов, но ставка Microsoft в том, что ни одна отдельная модель надолго не останется на вершине, и что реальная ценность — в оркестрационном слое, который направляет задачи в ту комбинацию, которая лучше всего подходит.

Ежедневная рассылка Daily Debrief

Начинайте каждый день с главных новостей прямо сейчас, а также с оригинальных материалов, подкаста, видео и многого другого.

Ваш Email

Получить!

Получить!

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить