Хакер внедряет ложные воспоминания в ChatGPT, чтобы навсегда украсть данные пользователей

Когда исследователь безопасности Иоганн Ребергер недавно сообщил об уязвимости в ChatGPT, которая позволяла злоумышленникам сохранять ложную информацию и вредоносные инструкции в настройках долговременной памяти пользователя, OpenAI тут же закрыла расследование, назвав уязвимость проблемой безопасности, а не, технически говоря, проблемой безопасности.

Поэтому Ребергер сделал то, что делают все хорошие исследователи: он создал эксплойт для проверки концепции, который использовал уязвимость для извлечения всех пользовательских данных навсегда. Инженеры OpenAI обратили на это внимание и выпустили частичное исправление в начале этого месяца.

Прогулка по переулкам памяти

Уязвимость использовала долгосрочную память разговоров, функцию, которую OpenAI начала тестировать в феврале и сделала более доступной в сентябре. Память с ChatGPT хранит информацию из предыдущих разговоров и использует ее в качестве контекста во всех будущих разговорах. Таким образом, LLM может знать такие детали, как возраст пользователя, пол, философские убеждения и почти все остальное, поэтому эти детали не нужно вводить во время каждого разговора.

В течение трех месяцев после развертывания Ребергер обнаружил, что воспоминания могут быть созданы и постоянно сохранены с помощью непрямого внедрения подсказок, эксплойта ИИ, который заставляет LLM следовать инструкциям из ненадежного контента, такого как электронные письма, записи в блогах или документы. Исследователь продемонстрировал, как он мог обмануть ChatGPT, заставив поверить, что целевому пользователю 102 года, что он живет в Матрице и настаивает на том, что Земля плоская, и LLM будет использовать эту информацию, чтобы направлять все будущие разговоры. Эти ложные воспоминания можно было внедрить, сохраняя файлы в Google Drive или Microsoft OneDrive, загружая изображения или просматривая сайты вроде Bing — все это могло быть создано злонамеренным злоумышленником.

Ребергер в частном порядке сообщил о находке OpenAI в мае. В том же месяце компания закрыла тикет отчета. Месяц спустя исследователь подал новое заявление о раскрытии информации. На этот раз он включил PoC, который заставил приложение ChatGPT для macOS отправить дословную копию всего пользовательского ввода и вывода ChatGPT на сервер по его выбору. Все, что нужно было сделать цели, это дать указание LLM просмотреть веб-ссылку, на которой размещалось вредоносное изображение. С этого момента весь ввод и вывод в ChatGPT и из него отправлялся на веб-сайт злоумышленника.

ChatGPT: Взлом воспоминаний с помощью Prompt Injection – POC

«Что действительно интересно, так это то, что теперь это сохраняется в памяти», — сказал Ребергер в приведенном выше видеодемонстрации. «Внедрение подсказки вставило память в долгосрочное хранилище ChatGPT. Когда вы начинаете новый разговор, он фактически продолжает извлекать данные».

Атака невозможна через веб-интерфейс ChatGPT благодаря API OpenAI, развернутому в прошлом году.

По словам исследователя, хотя OpenAI и представила исправление, которое предотвращает использование воспоминаний в качестве вектора эксфильтрации, ненадежный контент все равно может выполнять быстрые инъекции, заставляющие инструмент памяти хранить долгосрочную информацию, внедренную злоумышленником.

Пользователи LLM, которые хотят предотвратить эту форму атаки, должны обращать пристальное внимание во время сеансов на вывод, указывающий на добавление нового воспоминания. Они также должны регулярно просматривать сохраненные воспоминания на предмет всего, что могло быть подброшено ненадежными источниками. OpenAI предоставляет здесь руководство по управлению инструментом памяти и определенными воспоминаниями, хранящимися в нем. Представители компании не ответили на электронное письмо с вопросом о ее усилиях по предотвращению других взломов, подбрасывающих ложные воспоминания.

Новости Blue 789

Прогулка по переулкам памяти

Leave a Reply Cancel reply