Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Launchpad
Будьте готовы к следующему крупному токен-проекту
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Microsoft заставила GPT и Claude работать вместе — и результат превосходит все существующие инструменты для исследований ИИ
Коротко
Глубокий исследовательский ИИ в этом году стал одной из самых жарких гонок вооружений в техиндустрии. Google объявила свой исследовательский агент для Gemini в декабре 2024 года, OpenAI выпустила собственный исследовательский агент в феврале 2025, xAI последовала примеру, Perplexity удвоила ставку, а Claude от Anthropic завоевал лояльную аудиторию среди профессионалов, которым нужны подробные ответы с цитатами, представив свой агент в прошлом году в апреле.
Каждая компания пытается убедить вас, что ее единственная модель ИИ — самый умный исследователь в комнате. Microsoft только что сказала: Зачем выбирать одного?
Компания объявила в понедельник о двух новых функциях для инструмента Copilot’s Researcher — Critique и Council — которые ставят GPT от OpenAI и Claude от Anthropic работать над одной и той же исследовательской задачей последовательно. В результате, по данным тестирования Microsoft против отраслевого бенчмарка, система набирает больше, чем любая система, включенная в этот тест, включая модели от ведущих компаний в сфере ИИ.
«Critique — это новая многомодельная система глубоких исследований, предназначенная для сложных исследовательских задач. Она отделяет генерацию от оценки и использует комбинацию моделей из Frontier labs, включая Anthropic и OpenAI», — объясняет Microsoft. «Одна модель ведет фазу генерации: планирует задачу, проходит итерациями через извлечение и создает первоначальный черновик, а вторая модель фокусируется на проверке и доработке, выступая как экспертный рецензент до того, как будет подготовлен финальный отчет».
Вот основная проблема, которую призван исправить Critique: Сегодня каждый инструмент для исследований ИИ работает одинаково. Вы задаете вопрос, одна модель планирует поиск, выискивает источники, пишет отчет и возвращает его вам. Эта одна модель делает все без того, чтобы кто-то проверял ее работу.
Из-за этого в итоге могут проскользнуть некоторые галлюцинации, ошибки в цитированиях, фальшивые или неточные утверждения и т.д.
Critique ломает этот рабочий процесс на две части. GPT отвечает за первую фазу — он планирует исследования, извлекает источники и пишет первоначальный черновик. Затем в дело вступает Claude в роли строгого редактора, проверяя отчет на фактическую точность, качество цитирования и то, действительно ли ответил на то, о чем спрашивали. Только после этой проверки финальный отчет попадает к пользователю. Microsoft говорит, что роли могут в итоге работать и в обратном направлении — Claude будет готовить черновик, а GPT выполнять критику, — однако пока первым идет GPT.
На бенчмарке DRACO — стандартизированном тесте, охватывающем 100 сложных исследовательских задач в 10 областях, включая медицину, право и технологии — Copilot с Critique набрал 57.4. балла. В одиночку Claude Opus от Anthropic набирает 4.6, достигнув 42.7. Совмещенная система Microsoft обходит следующий лучший результат почти на 14%.
Изображение: Microsoft
Самые большие приросты проявились в широте аналитики и качестве представления, при этом фактическая точность тоже показала заметное улучшение.
Вторая функция — Council — подходит к той же проблеме иначе. Вместо того чтобы заставлять одну модель проверять работу другой, Council запускает GPT и Claude одновременно и ставит их полные отчеты бок о бок. Затем третья модель «судья» читает оба отчета и пишет сводку, объясняя, где две ИИ-системы согласились, где разошлись и какие уникальные ракурсы смог поймать каждый из них, чего не заметил другой. Сравнение инструментов для исследований ИИ вручную — то, что пользователям приходилось делать самим до сих пор.
В Critique модели фактически сотрудничают друг с другом, тогда как в Council модели конкурируют друг с другом.
Critique является настройкой по умолчанию в Researcher, а Council требует, чтобы вы выбрали «Model Council» в переключателе, чтобы включить режим бок о бок. Обе функции сейчас доступны пользователям, записавшимся в программу Microsoft Frontier — канал раннего доступа к самым новым возможностям Copilot. Лицензия Microsoft 365 Copilot ($30/пользователь/месяц) требуется, но пользователям также нужно быть зарегистрированными в Frontier, чтобы получить доступ к ним.
Изображение: Microsoft
OpenAI и Microsoft имеют партнерство на миллиарды долларов, но ставка Microsoft в том, что ни одна отдельная модель надолго не останется на вершине, и что реальная ценность — в оркестрационном слое, который направляет задачи в ту комбинацию, которая лучше всего подходит.
Ежедневная рассылка Daily Debrief
Начинайте каждый день с главных новостей прямо сейчас, а также с оригинальных материалов, подкаста, видео и многого другого.
Ваш Email
Получить!
Получить!