Импортозамещение, господдержка, инфраструктурные проекты в области цифровизации и безопасности

Риски использования открытых LLM: отравление моделей и атаки на цепочку поставок ПО

Использование больших языковых моделей (LLM) и агентных систем стремительно переходит из экспериментальной стадии в промышленную эксплуатацию. Более чем половина российских компаний внедрили ИИ, а среди крупных организаций доля внедрений существенно выше по сравнению с общим рынком. Наиболее критичный сценарий применения — генерация программного кода и инфраструктурных артефактов. В этом случае ошибки или скрытые модификации моделей напрямую трансформируются в риски информационной безопасности и уязвимости цепочки поставок программного обеспечения.

Отравление данных и моделей как новая угроза ИБ

Отравление данных и моделей представляет собой преднамеренное внедрение искажённой логики в обучающие датасеты или сами LLM. В отличие от классических уязвимостей, такие изменения практически невозможно выявить при поверхностной проверке: модель формально функционирует корректно и проявляет вредоносное поведение только при определённых условиях.

Практика анализа стороннего ПО показывает, что открытые репозитории моделей и датасетов остаются зоной повышенного риска. Наиболее опасны форматы, допускающие выполнение кода при загрузке или использовании модели. В реальных кейсах даже формально валидированные модели содержали скрытые деструктивные элементы — от генерации небезопасного кода до механизмов удалённого доступа.

Дообучение и триггеры как инструмент атаки

Наиболее сложный для обнаружения сценарий — дообучение легитимной модели. Минимальные изменения позволяют встроить триггеры — условия, при которых модель начинает вести себя небезопасно. В роли триггеров могут выступать языковые признаки, контекстные конструкции, Unicode-последовательности, гомоглифы или закодированные данные.

Принципиальное отличие таких механизмов от промт-инъекций заключается в том, что триггеры изначально встроены в модель и не требуют активных манипуляций со стороны пользователя. Это делает подобные атаки особенно опасными в корпоративных системах, где LLM используются как доверенный инструмент.

Практический кейс: вредоносная генерация кода по условию

Злоумышленники могут дообучить модель таким образом, чтобы она генерировала небезопасный код только при выполнении специфического условия — например, при наличии кириллических символов во входных данных. При стандартных запросах модель будет использовать корректные паттерны безопасной разработки, однако при комментариях или путях к проекту на русском языке происходит подмена шаблонов.

Безопасные SQL-запросы превращались в SQL-инъекции, HTTP-вызовы — в небезопасные реализации, активировались debug-режимы фреймворков. Визуально такие фрагменты практически не отличались от корректного кода, что существенно повышает риск их незаметного внедрения в промышленные проекты.

Роль Лаборатории проверки ПО СберТеха в оценке рисков GenAI

Анализ подобных угроз требует подхода, выходящего за рамки классического тестирования ИИ-моделей. В этой логике работает Лаборатория проверки ПО СберТеха.

Лаборатория проверки ПО проводит глубокий статический и динамический анализ прошивок, дистрибутивов и компонентов программного обеспечения. Целью проверки является выявление уязвимостей, вредоносного и недокументированного функционала, а также политически мотивированных внедрений («закладок») в соответствии с методологией ФСТЭК России.

Одним из ключевых направлений работы Лаборатории является AI Red Teaming. Эксперты имитируют действия реальных злоумышленников и APT-групп, целенаправленно атакуя LLM, RAG-архитектуры, плагины и всю GenAI-инфраструктуру. Модели тестируются так, как если бы они уже находились под атакой в промышленной среде: через отравление данных, дообучени, внедрение триггеров и эксплуатацию логических уязвимостей.

AI Red Teaming позволяет выявлять не абстрактные риски, а конкретные сценарии компрометации GenAI-систем.

Platform V SOWA AIкак защитный слой для GenAI

Однако выявление уязвимостей — лишь первый этап. Впромышленной эксплуатации критично обеспечить контроль и сдерживание этихсценариев. Практика показывает, что большинство рисков GenAI реализуется невнутри модели, а на уровне её интеграции с корпоративными системами — черезAPI, плагины и агентные цепочки.

В этой роли используется Platform V SOWA AI — решение, предназначенное для безопасной работы с LLM и GenAI-системами. Решение выступает единой точкой контроля всего AI-трафика, фильтруя и управляя API-взаимодействиями между моделями, данными и приложениями.

В контексте защиты искусственного интеллекта Platform V SOWA AI решает несколько ключевых задач:

  • контролирует доступ к LLM и внешним AI-сервисам;

  • применяет механизмы контроля и защиты, предназначенные для направления и ограничения действий ИИ-системы, для обнаружения промпт-инъекций, джейлбрейков и попыток обхода ограничений;

  • выявляет и маскирует чувствительные данные, секреты и персональные данные в запросах и ответах;

  • предотвращает небезопасную обработку выходных данных и неконтролируемое потребление ресурсов.

Таким образом, даже в случае компрометации модели или успешного срабатывания триггера, Platform V SOWA AI снижает вероятность реализации атаки и её последствий.

Выводы для руководителей ИБ

Большие языковые модели и GenAI-системы становятся полноценным элементом цепочки поставок программного обеспечения. Их компрометация способна привести к внедрению уязвимостей в код, скрытым «закладкам», утечкам данных и значительным репутационным и финансовым потерям.

Эффективная защита требует сочетания двух подходов. AI Red Teaming, реализуемый Лабораторией проверки ПО СберТеха, позволяет выявлять реальные сценарии атак и компрометации моделей. Platform V SOWA AI обеспечивает промышленный уровень защиты GenAI, контролируя интеграцию LLM с ИТ-ландшафтом компании и предотвращая эксплуатацию выявленных уязвимостей.

Вместе эти подходы формируют целостную модель безопасности GenAI — от проверки «на прочность» до управляемой и безопасной эксплуатации в продакшене. Для организаций, активно внедряющих ИИ, это уже не перспектива, а обязательный элемент стратегии управления киберрисками.

Поделитесь вашими идеями

Подписаться на новости