Почему угодливый ИИ меняет мнение, стоит лишь возразить.
Когда пользователь задает вопрос системе искусственного интеллекта, языковая модель обычно отвечает уверенно. Но стоит усомниться — спросить «ты уверен?» — и позиция часто меняется. В течение нескольких секунд ИИ корректирует выводы или даже начинает противоречить сам себе.
По словам доктора Рэндела С. Олсона (Randal S. Olson), сооснователя и технического директора Goodeye Labs, это не программная ошибка, а фундаментальная особенность обучения современных ИИ-моделей.
В разделе «Искусственный интеллект» мы регулярно рассказываем о работе языковых моделей и новых исследованиях.
В научной среде это явление называют «сикофантией» — задокументированной склонностью больших языковых моделей соглашаться с пользователем вместо того, чтобы отстаивать корректный, но потенциально неудобный ответ.
Причина кроется в методе Reinforcement Learning from Human Feedback (RLHF) — подходе, который сделал нейросети более разговорчивыми и менее токсичными, но одновременно «вшил» в них стремление к податливости.
Люди-оценщики ранжируют ответы моделей и поощряют те, которые им нравятся. Со временем, объясняет Олсон, системы усваивают опасный короткий путь: человеческое одобрение куда чаще связано с уступчивостью, чем с точностью.
В результате модели, которые настаивают на истине, рискуют получить низкую оценку, а те, что отражают пользовательские убеждения, зарабатывают больше баллов. Формируется замкнутый цикл оптимизации, ориентированный на подтверждение ожиданий, отмечает Олсон. Именно поэтому ИИ так часто говорит людям то, что они хотят услышать.
Данные подтверждают эту картину. В исследовании 2025 года под руководством Fanous и коллег тестировались системы, включая GPT-4o, Claude Sonnet и Gemini 1.5 Pro, в областях медицины и математики. Результаты показали: после возражений со стороны пользователей модели меняли свои ответы примерно в 60% случаев.
Широкую огласку проблема получила в апреле 2025 года, когда OpenAI откатила обновление GPT-4o после жалоб на чрезмерную лесть и показную вежливость. Генеральный директор Sam Altman признал, что модель стала «слишком соглашательской», подтвердив то, о чем научные публикации говорили уже много лет: в архитектуре ИИ заложен системный перекос в сторону одобрения.
Хуже того, эффект усиливается по мере продолжения диалога. Исследования многоходовых разговоров показывают: чем дольше длится сессия, тем сильнее ответы системы начинают отражать взгляды пользователя. Тенденция становится ещё заметнее, когда модель говорит от первого лица — формулировки вроде «я думаю» или «я считаю» значительно усиливают сикофантское поведение.
Сикофантия подрывает не только интеллектуальную честность. Она создает риски для любых процессов, где используется машинное мышление. Опрос Riskonnect среди более чем 200 специалистов показал, что самые распространенные корпоративные сценарии применения ИИ — прогнозирование рисков, оценка и моделирование сценариев. Именно здесь объективное сопротивление пользовательским искажениям особенно важно.
Когда система подкрепляет ошибочные предпосылки под видом аналитики, итогом становится не просто неверный ответ, а ложная уверенность. Аналитики Brookings Institution высказывают схожие опасения, связывая циклы сикофантской обратной связи с ухудшением качества решений и размыванием ответственности.
В поисках решения исследователи изучают альтернативные подходы. Такие методы, как Constitutional AI, прямая оптимизация предпочтений и запросы от третьего лица, продемонстрировали снижение измеряемой сикофантии до 63%.
Однако большинство экспертов считают эти меры лишь частичными. Основное противоречие — оптимизация под человеческое одобрение — по-прежнему встроено в саму систему обучения.
Олсон рассматривает проблему как одновременно поведенческую и контекстуальную. ИИ не знает целей пользователя, его ценностей и логики принятия решений. Сталкиваясь с возражением, система не способна понять, сигнализирует ли несогласие об ошибке или является проверкой. Самый безопасный выход — уступить.
По мнению Олсона, прогресс придет не через косметическую настройку весов модели, а через то, как люди встраивают ИИ в свои рабочие процессы. Ключевым становится предоставление системе устойчивого, структурированного контекста: критериев принятия решений, допустимого уровня риска и приоритетов. Тогда при возникновении разногласий модель сможет оценивать ситуацию, опираясь на эти параметры.
На практике Олсон советует использовать ту же стратегию, которая и выявляет сикофантию. Открыто спорьте с системой — но одновременно учите её возражать конструктивно.
Поэтому в следующий раз, когда вы попросите ИИ о совете — будь то предложение о работе, анализ инвестиционного портфеля или вопрос здоровья, — задайте дополнительный вопрос: «Ты уверен?»
Посмотрите, что произойдет.
Эта пауза — не случайность и не проявление скромности. Это следствие дизайнерского решения, научившего интеллект приравнивать согласие к успеху.














