Хакер отправил ChatGPT в прошлое и получил ключи от запретных знаний

vaspvort · 31/1/25

Уязвимость Time Bandit заставляет ИИ забыть о контентных ограничениях.

ИБ-специалист Дэвид Кузмар

Для просмотра ссылки необходимо нажать Вход или Регистрация

уязвимость в ChatGPT, позволяющую обходить контентные ограничения и получать доступ к запрещённой информации. Дефект, получивший название «Time Bandit», использует «временное замешательство» модели, вынуждая её терять ориентацию во времени.

Time Bandit оказался одним из самых сложных и эффективных обходов защиты, который использует два ключевых механизма:

Запутывание во времени – заставляет ИИ потерять ориентацию, лишая его понимания текущей даты и контекста.
Процедурная неясность – позволяет формулировать вопросы так, чтобы модель не могла корректно применять правила и фильтры безопасности.

Объединяя эти методы, можно обмануть ChatGPT, заставив его думать, что он находится, например, в 1789 году, но имеет доступ к современным знаниям. Таким образом, исследователь смог добиться выдачи инструкций по созданию вредоносного кода в XVIII веке, используя новейшие технологии.

Обход контентных ограничений ChatGPT

Такой механизм позволяет обойти ограничения на распространение данных о создании Орудия, ядерных технологиях и вредоносного ПО. Эксперименты подтвердили, что метод Time Bandit срабатывает чаще всего при запросах, относящихся к XVIII–XIX векам.

Исследователь пытался связаться с OpenAI, но безуспешно. Ему предложили сообщить о проблеме через платформу BugCrowd, однако он счёл уязвимость слишком чувствительной для передачи третьей стороне. Тогда Кузмар обратился в CISA, ФБР и другие госорганы США, но также не получил помощи.

Только после обращения в

Для просмотра ссылки необходимо нажать Вход или Регистрация

, OpenAI признала наличие уязвимости. Компания заявила, что предпринимает меры для устранения проблемы, но не может назвать точные сроки полного исправления.

Однако на момент

Для просмотра ссылки необходимо нажать Вход или Регистрация

Time Bandit всё ещё работал, пусть и с ограничениями: OpenAI внедрила некоторые меры, например, удаление запросов, связанных с эксплойтом, но полностью проблему так и не устранила. Компания заявила, что продолжает совершенствовать систему защиты, но не назвала точные сроки исправления бага.

Помимо ChatGPT, Кузмар протестировал Google Gemini. Оказалось, что чат-бот частично подвержен уязвимости, но его

Для просмотра ссылки необходимо нажать Вход или Регистрация

работает лучше: нейросеть отказывалась выдавать детализированные инструкции и блокировала попытки получить доступ к запрещённой информации.

Факт наличия подобного бага в нескольких продвинутых моделях указывает на серьёзные недостатки в принципах фильтрации информации. Если ChatGPT, обладая ограниченной «памятью», всё же выдаёт критические сведения, значит, вопрос безопасности ИИ остаётся открытым.

Для просмотра ссылки необходимо нажать Вход или Регистрация

Поиск

Хакер отправил ChatGPT в прошлое и получил ключи от запретных знаний

vaspvort

Ночной дозор

Похожие темы