В OpenAI предупреждают, что новые поколения ИИ-моделей могут выйти за рамки вспомогательных решений и перейти в разряд технологий, потенциально применимых при кибератаках. Компания пересматривает подход к развитию, исходя из того, что каждое следующее поколение может получить функциональность, позволяющую взламывать сложные цели, разрабатывать эксплойты нулевого дня и взаимодействовать с инструментами вторжения в инфраструктуру.
Внутренние данные OpenAI основаны на тестированиях, имитирующих реальные условия. На соревнованиях формата CTF, где проверяются способности к взлому, модель GPT‑5 в августе 2025 года справилась с 27% заданий. Спустя 3 месяца улучшенная версия GPT‑5.1-Codex-Max достигла отметки 76%. Рост более чем в 2,5 раза за короткий срок заставил разработчиков готовиться к тому, что следующие модели преодолеют уровень High по шкале рисков Preparedness Framework, принятой внутри компании. Это означает потенциальную способность обходить защиту сложных систем и помогать в организации скрытых атак.
При этом в OpenAI подчёркивают, что намерены направлять такие возможности в русло обороны. Представители компании заявили, что обучение моделей нацелено на отказ от выполнения вредоносных инструкций при сохранении пользы для специалистов по защите. Параллельно развиваются системы мониторинга и механизмы обнаружения злоупотреблений, а также активно проводятся red teaming-сессии с участием внешних профессионалов в кибербезопасности.
Одной из инициатив OpenAI стала программа Trusted Access, цель которой – предоставить специалистам, отвечающим за оборону, расширенные инструменты работы с моделями. Это должно повысить уровень автоматизации и эффективности задач аудита, тестирования на проникновение и поиска уязвимостей в защищённых системах.
Кроме того, формируется независимый консультативный орган – Frontier Risk Council. Он объединит экспертов отрасли, которые будут влиять на стратегические оценки рисков и внедрение защитных практик.
OpenAI не ограничивает проблему собственными разработками. В компании признают, что любая продвинутая модель, создаваемая в рамках индустрии frontier AI, способна быть использована в атаках.