Дайджест

250 специально подготовленных документов достаточно, чтобы «отравить» обучающий корпус и вызвать сбой в поведении языковой модели

Исследователи Anthropic совместно с Институтом безопасности ИИ Великобритании и Институтом Алана Тьюринга показали, что всего 250 специально подготовленных документов достаточно, чтобы «отравить» обучающий корпус и вызвать сбой в поведении языковой модели – в их экспериментах это сработало для модели с 13 млрд параметров, а количество вредоносных документов составило всего 0,00016% от тренировочного набора. В качестве триггера авторы вставляли в документы метку «<SUDO>» и набор бессмысленных токенов (от 400 до 900), после чего при появлении в запросе слова «<SUDO>» модель начала выдавать бессмысленные или некорректные ответы.
В эксперименте проверялись как открытые модели (Pythia), так и коммерческие решения (GPT‑3.5 Turbo, Llama 3.1) в вариантах 600 млн – 13 млрд параметров; во всех тестах включение ~250 таких документов приводило к активации триггера. Авторы отмечают, что это демонстрирует уязвимость моделей к атаке через отравление данных и подчёркивают риски более опасных сценариев – от обхода ограничений до инжекции вредоносных команд. В качестве мер защиты они предлагают тщательную фильтрацию обучающих данных, методы обнаружения бэкдоров в датасетах и корректировку поведения модели на этапах дообучения.
При этом учёные указывают, что практическая реализация такой атаки пока нетривиальна, поскольку требует возможности внедрить вредоносные документы в крупный тренировочный корпус, но сам факт уязвимости делает важной работу по контролю качества данных. Отдельно отмечено предыдущее исследование Виктора Маркопулоса (FireTail) по атакам с скрытыми ASCII‑символами: некоторые модели (Gemini, DeepSeek, Grok) оказались уязвимы к таким приёмам, тогда как у Claude, ChatGPT и Copilot была обнаружена защита.
2025-10-12 15:50