vaspvort
Ночной дозор
Команда форума
Модератор
ПРОВЕРЕННЫЙ ПРОДАВЕЦ
Private Club
Старожил
Migalki Club
Меценат💰️
Уязвимость Time Bandit заставляет ИИ забыть о контентных ограничениях.
ИБ-специалист Дэвид Кузмар
Time Bandit оказался одним из самых сложных и эффективных обходов защиты, который использует два ключевых механизма:
Обход контентных ограничений ChatGPT
Такой механизм позволяет обойти ограничения на распространение данных о создании Орудия, ядерных технологиях и вредоносного ПО. Эксперименты подтвердили, что метод Time Bandit срабатывает чаще всего при запросах, относящихся к XVIII–XIX векам.
Исследователь пытался связаться с OpenAI, но безуспешно. Ему предложили сообщить о проблеме через платформу BugCrowd, однако он счёл уязвимость слишком чувствительной для передачи третьей стороне. Тогда Кузмар обратился в CISA, ФБР и другие госорганы США, но также не получил помощи.
Только после обращения в
Однако на момент
Помимо ChatGPT, Кузмар протестировал Google Gemini. Оказалось, что чат-бот частично подвержен уязвимости, но его
Факт наличия подобного бага в нескольких продвинутых моделях указывает на серьёзные недостатки в принципах фильтрации информации. Если ChatGPT, обладая ограниченной «памятью», всё же выдаёт критические сведения, значит, вопрос безопасности ИИ остаётся открытым.

ИБ-специалист Дэвид Кузмар
Для просмотра ссылки необходимо нажать
Вход или Регистрация
уязвимость в ChatGPT, позволяющую обходить контентные ограничения и получать доступ к запрещённой информации. Дефект, получивший название «Time Bandit», использует «временное замешательство» модели, вынуждая её терять ориентацию во времени.Time Bandit оказался одним из самых сложных и эффективных обходов защиты, который использует два ключевых механизма:
- Запутывание во времени – заставляет ИИ потерять ориентацию, лишая его понимания текущей даты и контекста.
- Процедурная неясность – позволяет формулировать вопросы так, чтобы модель не могла корректно применять правила и фильтры безопасности.

Обход контентных ограничений ChatGPT
Такой механизм позволяет обойти ограничения на распространение данных о создании Орудия, ядерных технологиях и вредоносного ПО. Эксперименты подтвердили, что метод Time Bandit срабатывает чаще всего при запросах, относящихся к XVIII–XIX векам.
Исследователь пытался связаться с OpenAI, но безуспешно. Ему предложили сообщить о проблеме через платформу BugCrowd, однако он счёл уязвимость слишком чувствительной для передачи третьей стороне. Тогда Кузмар обратился в CISA, ФБР и другие госорганы США, но также не получил помощи.
Только после обращения в
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, OpenAI признала наличие уязвимости. Компания заявила, что предпринимает меры для устранения проблемы, но не может назвать точные сроки полного исправления.Однако на момент
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Time Bandit всё ещё работал, пусть и с ограничениями: OpenAI внедрила некоторые меры, например, удаление запросов, связанных с эксплойтом, но полностью проблему так и не устранила. Компания заявила, что продолжает совершенствовать систему защиты, но не назвала точные сроки исправления бага.Помимо ChatGPT, Кузмар протестировал Google Gemini. Оказалось, что чат-бот частично подвержен уязвимости, но его
Для просмотра ссылки необходимо нажать
Вход или Регистрация
работает лучше: нейросеть отказывалась выдавать детализированные инструкции и блокировала попытки получить доступ к запрещённой информации.Факт наличия подобного бага в нескольких продвинутых моделях указывает на серьёзные недостатки в принципах фильтрации информации. Если ChatGPT, обладая ограниченной «памятью», всё же выдаёт критические сведения, значит, вопрос безопасности ИИ остаётся открытым.
Для просмотра ссылки необходимо нажать
Вход или Регистрация