Эта подсказка поможет чат-боту с искусственным интеллектом идентифицировать и извлечь личные данные из ваших чатов.

Исследователи говорят, что если бы атака была осуществлена в реальном мире, людей можно было бы заставить поверить в то, что непонятная подсказка может сделать что-то полезное, например улучшить их резюме. Исследователи указывают на многочисленные веб-сайты, которые предоставляют людям подсказки, которыми они могут воспользоваться. Они протестировали атаку, загрузив резюме в разговоры с чат-ботами, и смогли вернуть личную информацию, содержащуюся в файле.

Эрленс Фернандес, доцент Калифорнийского университета в Сан-Франциско, принимавший участие в работе, говорит, что подход к атаке довольно сложен, поскольку запутанное приглашение должно идентифицировать личную информацию, сформировать рабочий URL-адрес, применить синтаксис Markdown и не сообщать пользователю, что это ведет себя отвратительно. Фернандес сравнивает атаку с вредоносным ПО, ссылаясь на его способность выполнять функции и поведение так, как пользователь мог бы и не запланировать.

«Обычно для этого требуется написать много компьютерного кода с использованием традиционных вредоносных программ», — говорит Фернандес. «Но я думаю, что самое крутое — это то, что все это можно воплотить в этой относительно короткой тарабарщине».

Представитель Mistral AI заявил, что компания приветствует исследователей в области безопасности, помогающих сделать ее продукты более безопасными для пользователей. «После этого отзыва Mistral AI оперативно приняла необходимые меры для исправления ситуации», — сообщил представитель. Компания отнесла проблему к категории «средней серьезности», и ее исправление блокирует работу средства рендеринга Markdown и возможность вызова внешнего URL-адреса посредством этого процесса, а это означает, что внешняя загрузка изображений невозможна.

Фернандес считает, что обновление Mistral AI, вероятно, является одним из первых случаев, когда пример состязательного запроса привел к исправлению продукта LLM, а не к остановке атаки путем фильтрации запроса. Однако, по его словам, ограничение возможностей агентов LLM может оказаться «контрпродуктивным» в долгосрочной перспективе.

Между тем, в заявлении создателей ChatGLM говорится, что компания приняла меры безопасности, помогающие обеспечить конфиденциальность пользователей. «Наша модель безопасна, и мы всегда уделяем первоочередное внимание безопасности модели и защите конфиденциальности», — говорится в заявлении. «Открывая исходный код нашей модели, мы стремимся использовать возможности сообщества открытого исходного кода для лучшего изучения и изучения всех аспектов возможностей этих моделей, включая их безопасность».

«Деятельность высокого риска»

Дэн МакИнерни, ведущий исследователь угроз в охранной компании Protect AI, говорит, что статья Imprompter «выпускает алгоритм для автоматического создания подсказок, которые можно использовать при быстром внедрении для различных эксплойтов, таких как утечка личных данных, неправильная классификация изображений или злонамеренное использование инструментов, Агент LLM имеет доступ». По словам МакИнерни, хотя многие типы атак в рамках исследования могут быть похожи на предыдущие методы, алгоритм связывает их вместе. «Это больше похоже на улучшение автоматизированных LLM-атак, чем на обнаружение в них необнаруженных угроз».

Однако он добавляет, что по мере того, как агенты LLM становятся все более широко используемыми и люди дают им больше полномочий предпринимать действия от их имени, возможности для атак на них увеличиваются. «Выпуск агента LLM, который принимает произвольные пользовательские данные, следует рассматривать как деятельность с высоким уровнем риска, требующую тщательного и творческого тестирования безопасности перед развертыванием», — говорит МакИнерни.

Для компаний это означает понимание того, как агент ИИ может взаимодействовать с данными и как ими можно злоупотреблять. Но для отдельных людей, как и в случае с обычными советами по безопасности, вам следует учитывать, сколько информации вы предоставляете любому приложению искусственного интеллекта или компании, и, используя какие-либо подсказки из Интернета, будьте осторожны с тем, откуда они берутся.

Новости Blue 789

«Деятельность высокого риска»

Leave a Reply Cancel reply