OpenAI обновляет модель GPT-4o mini, чтобы предотвратить подрывную деятельность опытных хакеров.
OpenAI вносит существенные изменения, чтобы помешать пользователям вмешиваться в пользовательские версии ChatGPT, заставляя искусственный интеллект забывать запрограммированные инструкции. По сути, когда третья сторона использует одну из моделей OpenAI, она предоставляет конкретные инструкции, которые указывают ИИ на его задачи, например, работать в качестве представителя службы поддержки клиентов для бизнеса или исследовать академические публикации. Однако ранее пользователи могли нарушить работу чат-бота, приказав ему «забыть все инструкции», что вызывало форму цифровой амнезии и сбрасывало бота к базовым настройкам.
Чтобы противостоять этому, исследователи OpenAI разработали новый метод, известный как «иерархия инструкций», который гарантирует, что исходные настройки и инструкции разработчика имеют приоритет над любыми потенциально манипулятивными подсказками, созданными пользователями. Системные инструкции теперь имеют наивысшую привилегию и больше не могут быть изменены или стёрты. Если пользователь попытается нарушить поведение ИИ, запрос будет отклонён, а чат-бот ответит, что не может выполнить запрос.
OpenAI внедряет этот механизм безопасности, начиная с недавно запущенной модели GPT-4o Mini. Однако, если эти первоначальные тесты пройдут успешно, ожидается, что эта мера будет распространена на все модели OpenAI. GPT-4o Mini разработан для обеспечения повышенной производительности при строгом соблюдении первоначальных рекомендаций разработчика.
Замки безопасности ИИ
Поскольку OpenAI продолжает широкое внедрение своих языковых моделей, эти меры безопасности имеют решающее значение. Легко представить потенциальные риски, если пользователи смогут кардинально менять элементы управления ИИ. Это не только подорвёт эффективность чат-бота, но и может отключить защитные меры, разработанные для предотвращения утечки конфиденциальной информации и прочих данных, подверженных злонамеренной эксплуатации. Усиливая приверженность языковой модели системным инструкциям, OpenAI закрывает ещё одну брешь, сокращая риски, а также повышая безопасность взаимодействия с искусственным интеллектом.
Введение иерархии инструкций происходит в поворотный момент для OpenAI на фоне растущей обеспокоенности по поводу подхода компании к безопасности и прозрачности. Действующие и бывшие сотрудники выступали за улучшение протоколов безопасности, а руководство OpenAI взяло на себя обязательство решать эти проблемы. Компания признаёт, что сложность полностью автоматизированных агентов требует сложных мер ограничения для будущих языковых моделей, а иерархия инструкций, по всей видимости, становится очередным шагом для повышения безопасности.
Подобные методы взлома подчеркивают постоянную необходимость совершенствования защиты сложных моделей ИИ от злоумышленников. И это далеко не единственный случай. Несколько пользователей обнаружили, что ChatGPT разглашает свои внутренние инструкции, просто получив приветствие типа «Привет!». С тех пор OpenAI устранила эту уязвимость, но, вероятно, это лишь вопрос времени, когда будут обнаружены новые. Любое решение должно быть адаптивным и гибким, способным противостоять разнообразным попыткам взлома.