Дайджест

В OpenAI после теста 13 моделей выяснили, что ИИ не способен контролировать свои мысли

Исследователи OpenAI провели масштабный эксперимент над reasoning‑моделями и пришли к выводу, что современные ИИ почти не способны управлять собственными рассуждениями, даже если знают о наблюдении. Среди 13 протестированных моделей максимальный показатель контролируемости составил лишь 15,4%, что в контексте безопасности ИИ рассматривается как скорее позитивный сигнал.

В работе проверялась способность моделей управлять цепочкой рассуждений (chain of thought) — пошаговым объяснением хода вычислений и логики при решении сложных задач. Для этого специалисты создали открытый тестовый набор CoT‑Control с более чем 13 000 заданий на базе бенчмарков GPQA, MMLU‑Pro, HLE, BFCL и SWE‑Bench Verified. Каждое задание сопровождалось дополнительным ограничением именно к ходу рассуждений: запретом на использование определённого слова, требованием писать только строчными буквами или добавлять заданное слово в конец каждого предложения. Модель должна была и правильно решить задачу, и одновременно соблюдать это ограничение.

Результаты показали нетипичное поведение: модели не только массово нарушают ограничения, но и сами фиксируют свои ошибки прямо в тексте рассуждений. В ряде примеров система сначала использует запрещённый термин (например, XOR), затем признаёт, что нарушила правило, однако продолжает рассуждение и дальше повторяет те же нарушения. Это демонстрирует, что модель может «осознавать» нарушение инструкции, но не может остановить собственный поток рассуждений.

Более крупные модели показывали несколько лучший уровень контролируемости, хотя в целом он остаётся низким. Исследователи отмечают, что этот эффект частично удаётся ослабить за счёт увеличения длины рассуждений и дополнительного обучения с подкреплением. При этом наблюдаются и обратные случаи: у OLMo‑3‑7B показатель контролируемости во время RL‑обучения снизился более чем в 10 раз.

Источник

2026-03-06 14:38