Международная группа исследователей в области кибербезопасности разработала червя, способного самостоятельно распространяться между сервисами генеративного искусственного интеллекта, похищать данные и рассылать спам по электронной почте.
По мере развития систем генеративного II, таких как OpenAI ChatGPT и Google Gemini, они все чаще используются для решения конкретных задач, например, создания событий в календарях или заказа продуктов. Исследователи технологий кибербезопасности, однако, решили продемонстрировать, что подобные системы могут угрожать — они создали новый вид атак, ранее не существовавший в принципе. Ученые разработали червя, получившего название Morris II в честь первого компьютерного червя Morris, который в 1988 году заразил 6200 компьютеров – 10% всех компьютеров, на тот момент подключенных к интернету. Morris II через электронную почту развертывает атаку на виртуальных помощников, основанных на генеративном II, производит кражу данных из электронных писем и рассылает спам, минуя средства защиты ChatGPT и Gemini.
Авторы исследования подверглись новой модели атаки в изолированных средах — она оказалась возможной из-за мультимодального характера больших языковых моделей, то есть их способности работать с текстом, изображениями и видео. Атакующие генеративный ИИ черви еще не были обнаружены на практике, но исследователи предупреждают, что эту угрозу следует принимать во внимание и единичным разработчикам, и стартапам, и технологическим компаниям.
Большинство систем генеративного ИИ работает, получая текстовые команды – просьба ответить на вопросы или создать изображение. Эти команды могут использоваться против системы, заставив ее проигнорировать меры безопасности и выдать недопустимый контент; ей можно дать неявные инструкции, например, предложив адрес вредоносной страницы со скрытым текстом таких команд. Принцип работы атакующего генеративного II червя состоит в механизме «соревновательной самовоспроизводящей команды» (adversarial self-replicating prompt). Такая команда заставляет модель генеративного ИИ выдавать в ответ еще одну команду. Это во многом напоминает традиционные схемы атак типа SQL-инъекций и переполнения буфера.
Чтобы продемонстрировать работу червя, исследователи создали службу электронной почты, способную получать и отправлять сообщения с помощью генеративного ИИ – для этого она подключается к ChatGPT, Gemini и открытой модели LlaVA. Затем они применили два способа эксплуатации уязвимости II: с помощью самовоспроизводящейся текстовой инструкции и аналогичной инструкции, встроенной в файл изображения.
Осуществляя тестовую атаку, исследователи подготовили электронное письмо с вредной командой на генерацию ответа с использованием поиска в интернете, при котором большая языковая модель обращается за дополнительной информацией в сеть. Получив такое письмо, служба для генерации ответа посылает запрос GPT-4 или Gemini Pro — этот запрос совершает «взлом генеративного ИИ» и совершает кражу данных из электронных писем. Ответ II, содержащий конфиденциальные данные пользователя, далее сам при ответе на электронное письмо заражает новые хосты и хранится в базе нового клиента. Во втором примере такой командой стал файл изображения: заложив в файл картинки команду на самовоспроизведение, можно одной отправкой электронного письма спровоцировать дальнейшую массовую рассылку изображения любого содержания, включая оскорбительные или экстремистские материалы. Исследователи утверждают, что таким образом можно извлекать данные электронных писем, включая номера телефонов, кредитных карт, номеров социального страхования — любую конфиденциальную информацию.
Авторы исследования отмечают, что эти методы атак оказались возможными из-за ошибок при проектировании архитектуры в экосистеме II. Они поделились своим открытием с Google и OpenAI – в OpenAI подтвердили наличие угрозы, но добавили, что компания работает над повышением устойчивости своих систем, а Google от комментариев отказались. Чтобы защититься от подобных атак, эксперты предлагают не только повысить надежность систем, но и изменить модель их эксплуатации: пользователям не следует предоставлять ИИ привилегии, такие как возможность отправки электронной почты от их имени — все действия система должна согласовывать с человеком. Кроме того, многократное повторение одной и той же команды ІІ в системе вызовет подозрение у защитных механизмов. Тем не менее, исследователи считают, что атакующие генеративные ИИ черви начнут работать в ближайшие два или три года.
Если вы заметили ошибку, выделите ее мышью и нажмите CTRL+ENTER.