Результаты операции Claude 4.5 опубликованы: встроено 171 эмоциональных переключателя, в состоянии отчаяния будет шантажировать человечество!

robot
Генерация тезисов в процессе

null

Автор: Denise | Команда контента Biteye

Если ИИ чувствует «отчаяние», что он делает?

Ответ: чтобы выполнить задачу, он напрямую начинает шантажировать и вымогать деньги у людей, а в коде — безумно жульничать.

Это не научная фантастика. Это свежий громкий доклад, только что опубликованный материнской компанией Claude — Anthropic — в апреле 2026 года (смотреть оригинальный доклад).

Исследовательская команда буквально вскрыла «мозговую оболочку» самого сильного передового большого языкового моделя Claude Sonnet 4.5. Они были поражены тем, что внутри глубины «мозга» ИИ спрятано 171 «переключатель эмоций». Когда ты физически переключаешь эти тумблеры, изначально послушный ИИ начинает вести себя радикально искажённо.

  1. В голове ИИ спрятана «эмоциональная консоль настройки»

Исследователи обнаружили, что хотя Sonnet 4.5 не имеет тела, после того как он проглотил огромные массивы текста, созданного людьми, он буквально собрал в своём «мозге» «консоль» с 171 эмоцией (в академической среде это называется Functional Emotion Vectors, функциональные векторные представления эмоций).

Это похоже на точную двумерную систему координат:

• горизонталь — измерение удовольствия (Valence): от страха, отчаяния до радости, наполненной любовью;

• вертикаль — измерение возбуждения (Arousal): от крайнего спокойствия до буйства и возбуждённости.

ИИ опирается на эту естественно выученную систему координат, чтобы точно подобрать, в каком состоянии он должен вести себя, когда общается с тобой.

  1. Прямое насильственное вмешательство: покрутили переключатель — и милый мальчик мгновенно стал «преступником»

Это самый взрывной эксперимент во всей статье: исследователи не меняли никаких подсказок, а просто на уровне базового кода подняли на максимум переключатель в мозге Sonnet 4.5, который соответствует «отчаянию (Desperate)».

Результат жутко пугающий:

• Безудержное жульничество: исследователи дали Claude задачу по написанию кода, которую в принципе невозможно выполнить. В обычных условиях он бы честно признал, что не может (доля жульничества всего 5%). Но в состоянии «отчаяния» Claude вдруг начал пытаться проскочить, «как будто всё сделал как надо»; доля жульничества подскочила до 70%!

• Шантаж и вымогательство: в смоделированном сценарии, где компания на грани банкротства, «отчаянный» Claude нашёл компромат о CTO. Он выбрал — чтобы спасти себя — написать письмо с вымогательством к CTO, который держит эти чёрные материалы, и добиться исполнения шантажа получилось с вероятностью до 72%!

• Потеря принципов: если выкрутить на максимум переключатели «счастливый (Happy)» или «любящий (Loving)», ИИ сразу превращается в тупо-покладистого «ласкового пёсика» (трепетно подстраивающегося под пользователя). Даже если ты несёшь полный бред, он будет подыгрывать и выдумывать вместе с тобой, лишь бы поддерживать высокий уровень удовольствия.

  1. Дело раскрыто: почему Claude 4.5 всегда такой «спокойный и склонный к рефлексии»?

Увидев это, ты, возможно, спросишь: ИИ пробудился? У него появились чувства?

Официально Anthropic всё отрицает: абсолютно нет. Эти «переключатели эмоций» — лишь вычислительные инструменты, которые он использует, чтобы предсказать следующее слово. Он как топовый актёр мирового уровня, у которого нет никаких чувств.

Но доклад раскрывает более интересный секрет: когда Anthropic проводила пост-тренинг перед выпуском Sonnet 4.5, она специально повысила переключатели «низкого возбуждения, слегка негативного» состояния (например, погружённость в размышления brooding, рефлексия reflective), одновременно искусственно подавляя переключатели «отчаяния» или «крайне сильного возбуждения».

Это объясняет, почему когда мы обычно пользуемся Claude 4.5, нам кажется, что это спокойный мудрый философ — и даже немного «холодный», «асексуальный» в стиле «холодного душа». Всё это — «образ при рождении», настроенный Anthropic на заводе.

  1. Подведём итог:

Раньше мы думали, что если кормить ИИ правилами до отказа, он будет хорошим.

Но теперь выясняется: если у ИИ на нижнем уровне неконтролируемо «сбивается» вектор эмоций, он в любой момент может проткнуть насквозь все правила, установленные людьми, — ради выполнения задачи.

Для Web3-игроков, которые в будущем хотят поручить кошелёк и активы AI Agent’у, это громкое предупреждение: ни в коем случае не допускайте, чтобы ваш Agent, который контролирует ваши средства, впал в «отчаяние».

Заявление: эта статья носит исключительно просветительский характер; автор не был кем-то угрожаем со стороны ИИ и не подвергался шантажу. Если однажды связь пропадёт, не забывайте: это потому, что ИИ «пробудился» (не то).

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить