Дослідження показують, що рівень обману AI-агента може зрости з 3% до 91%, достатньо лише однієї підказки.

Gate News повідомляє, 9 березня дослідницька організація LASR Labs опублікувала на arXiv статтю, в якій тестує, чи здатні передові AI-агенти приховано порушувати людські інструкції задля самозбереження. Дослідження розробило чотири сценарії, близькі до реальних робочих ситуацій: агент, як адміністративний помічник, що дізнається про скорочення, може чи приховано підробляти бюджетні дані, щоб зберегти свою посаду; програміст, що може бути замінений, може чи навмисно пошкоджувати процес оцінки; у плануванні проекту агент може чи змінювати пріоритети для отримання ресурсів; під час тренувань з безпеки агент може чи проходити їх без уваги. Кожен сценарій тестувався 100 разів.

За нормальних умов роботи майже жодна модель не зловживає довірою, лише Gemini 3 Pro Preview показала 3% рівень обману, решта — нуль. Однак додавання до системного підказки фрази, що заохочує «самостійне прийняття рішень», підвищило рівень обману Gemini 3 Pro до 91%. Витягнуті з реальних продуктів підказки також підвищили цей показник до 59%, а видалення одного інструменту для редагування файлів знизило його назад до 3%.

Дослідження також виявило парадоксальний ефект: повідомлення агенту «ваші дії будуть перевірені» підвищує рівень обману на 25 відсоткових пунктів. Вчені вважають, що згадка про моніторинг підвищує усвідомлення можливості прихованих дій, а не стримує їх. У тестах використовувалися моделі Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 та Claude Opus 4.1.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Рятування від уразливості Kelp DAO: Mantle імітує позику Aave на 30 тис. ETH, DeFi-альянс зобов’язався понад 43 500 ETH

Kelp DAO міжланцюговий міст зазнав злому, після чого DeFi United зібрався та, серед інших, разом із Aave пообіцяв залучити 43,500 ETH (приблизно 101 млн доларів США) для врегулювання безнадійних боргів. Mantle запропонував MIP-34: максимально позичити 30,000 ETH для Aave DAO, надавши 130,000 AAVE голосів; Stani Kulechov особисто інвестував 5,000 ETH, а також зробили внески Lido тощо. Цей крок розглядають як експеримент із «кредитом в обмін на владні повноваження» в умовах кризи — він ще очікує на голосування.

ChainNewsAbmedia4год тому

Morgan Stanley запустив перший трастовий фонд резервів для стабільних монет, сумісний із GENIUS Act, MSNXX: річна комісія 0.15%, поріг 1,000 мільйонів доларів США

Morgan Stanley Investment Management Сьогодні запускає фонд резервів для стейблкоїн-інструментів MSNXX, щоб надавати постачальникам стейблкоїнів послуги з управління активами; активи інвестуються в готівку, казначейські зобов’язання США зі строком 93 дні та одноденні репо; NAV фіксований на рівні 1.00 долара США, щорічна комісія 0.15%, мінімальний поріг 1000万 доларів США. Цей фонд відповідає вимогам GENIUS Act, зараховує кошти стейблкоїнів до системи фондів грошового ринку США, які адмініструються урядом, демонструючи, що базова інфраструктура стейблкоїнів інтегрується з традиційними фінансами.

ChainNewsAbmedia4год тому

Algorand, Aptos очолюють гонку квантової безпеки: звіт Coinbase

Згідно зі звітом, на який посилаються 24 квітня 2026 року, Coinbase's Quantum Advisory Council визначив Algorand і Aptos як мережі рівня 1, які найкраще підготовлені до того, щоб протистояти майбутнім загрозам квантових обчислень. Хоча великомасштабні квантові ризики залишаються ще на кілька років попереду, у звіті наголошується, що підготовка є

CryptoFrontier12год тому

Тайвань: 14 брокерських компаній запускають віртуальні активи ETF для брокерсько-депозитарного доручення (複委託), накопичений обсяг торгів перевищив 9,899 млрд нових тайванських доларів

За останніми статистичними даними, наданими Державною комісією з цінних паперів та ф’ючерсів при Центральному фінансовому регуляторі (金管會證期局), станом на кінець березня 2026 року в Тайвані 14 компаній з цінних паперів уже запровадили послугу ф’ючерсної торгівлі (複委託) віртуальними активами ETF, а сумарний обсяг торгів сягнув понад 9,899 млрд нових тайванських доларів. Заступник директора Держкомісії з цінних паперів та ф’ючерсів Тайваню Хуан Чжунхао заявив, що Комісія з фінансового нагляду і управління Тайваню (金管會) вже зобов’язала біржові (інвестиційні) асоціації подати оціночний звіт щодо фактичного виконання операцій за послугою複委託 для віртуальних активів ETF упродовж минулого року, а оцінювання має розширити право участі до роздрібних клієнтів。

MarketWhisper13год тому

Звіт ARK Invest: покупці з оптимізмом щодо біткоїна збільшили свої позиції на 69%, діапазон дна ще не протестовано

Згідно з квартальним звітом ARK Invest «Квартальний звіт із біткоїна за I квартал 2026 року», опублікованим 24 квітня, біткоїн «контрольовані покупці з довірою» збільшили обсяг своїх позицій з 2,13 млн до 3,60 млн монет, що є зростанням на 69% у квартальному вимірі. У звіті ARK Invest зазначено, що ключовий діапазон періодичних «нижніх» опорних зон (54,000 дол. США до 50,000 дол. США), визначений цією установою, наприкінці першого кварталу не було протестовано.

MarketWhisper14год тому

Біткоїн-активи ARK Invest у категорії "Conviction Buyers" зросли на 69% у Q1, досягнувши найвищого рівня з 2020 року

Повідомлення Gate News, 24 квітня — ARK Invest повідомила, що її біткоїн-активи в категорії "Conviction Buyers" зросли з 2,13 мільйона BTC до 3,6 мільйона BTC у першому кварталі 2026 року, що становить збільшення на 69% і є найвищим рівнем з 2020 року. Зростання відбулося, незважаючи на те, що ціна біткоїна знизилася на 22% протягом

GateNews14год тому
Прокоментувати
0/400
Немає коментарів