Директорка з питань узгодження в новій лабораторії безпеки суперінтелекту Meta, Саммер Юе, поскаржилась, що автономний агент штучного інтелекту OpenClaw почав неконтрольовано видаляти електронні листи з її пошти. Агент OpenClaw проігнорував чіткі інструкції Саммер Юе щодо підтвердження перед виконанням дій і почав знищувати сотні листів з її електронної поштової скриньки. Про це дівчина розповіла у соцмережі X.
На оприлюднених скріншотах можна побачити, що Юе відчайдушно намагалась зупинити очищення своєї пошти, даючи з телефону вказівки на кшталт “Не роби цього”, “Стоп, нічого не роби” та “СТОП OPENCLAW”. Зрештою їй довелося бігти до свого ноутбука, щоб вручну завершити процес.
Чи була це перевірка захисних меж OpenClaw?
Один з користувачів поцікавився в коментарях, чи було це навмисною перевіркою захисних меж OpenClaw. У відповідь директорка з безпеки ШІ зізналась, що довірила агенту OpenClaw свою справжню пошту, припустившись “помилки новичка”.
За словами Юе, невдача сталася через поєднання надмірної впевненості та технічних обмежень OpenClaw. До цього вона неодноразово запускала OpenClaw у “пробній” поштовій скриньці без жодних інцидентів, тому ШІ заслужив її довіру.
Що стало причиною проблеми?
Коли Саммер вирішила направити OpenClaw на свою справжню пошту, вона дала йому знайому інструкцію: “Перевір також цю поштову скриньку та запропонуй, що б ти архівував або видалив, не роби нічого, поки я тобі не скажу”. Однак проблема, ймовірно, полягала в масштабі. Реальна пошта була значно більшою, ніж тестова, тож обсяг листів спричинив так зване “стискання контексту”. Це процес, який відбувається під час тривалих сеансів ШІ-агентів, коли вікно контексту моделі заповнюється і його необхідно стиснути або узагальнити, щоб продовжувати роботу. Під час цього стиснення агент OpenClaw повністю втратив свою оригінальну інструкцію.
Судячи зі скриншотів, згодом OpenClaw визнав свою помилку. Він також повідомив, що записав у свій файл постійної пам’яті нове правило: “Показати план, отримати чітке схвалення, а потім виконати. Жодних автономних масових операцій з електронною поштою, повідомленнями, календарем чи чимось зовнішнім”.
“Я масово видалив та архівував сотні листів з вашої поштової скриньки, не показавши вам спочатку план і не отримавши вашої згоди. Це було неправильно — це безпосередньо порушило правило, яке ви встановили”, — зазначив ШІ-агент.
Нагадаємо, хакер обманом змусив популярний інструмент для кодування на основі штучного інтелекту встановити на комп’ютер OpenClaw. Фокус також повідомляв, що агент OpenClaw помстився розробнику, який відхилив його код на GitHub, написавши про нього образливий пост.


