Новости Cloudflare представила Robotcop для соблюдения политик robots.txt и блокировки ботов

vaspvort

Ночной дозор
Команда форума
Модератор
ПРОВЕРЕННЫЙ ПРОДАВЕЦ
Private Club
Старожил
Migalki Club
Меценат💰️
Регистрация
10/4/18
Сообщения
5.167
Репутация
10.058
Реакции
15.445
RUB
1.045
Сделок через гаранта
18
Cloudflare в панель управления аудита ИИ новую функцию, которую шутливо назвала Robotcop. Она позволит проверить, какие ИИ-службы соблюдают политики robots.txt, а какие нет, а затем программно применять эти политики.

49ea593527c2a833bef092c018b09c5e.JPG

Панель аудита предоставляет сводку количества запросов, разбитых по ботам, а также позволяет фильтровать их по категориям, в том числе веб-сканеров.

Robots.txt — это текстовый файл, который размещается на домене и реализует протокол исключения сканеров. Он ограничивает доступ поисковым ботов к отдельным элементам и контенту сайта.

В Cloudflare отметили, что с появлением генеративного ИИ соответствующие службы начали сканировать Интернет, чтобы собирать данные для обучения моделей. После этого многие создатели и издатели контента начали использовать robots.txt для обновления политик, включая в них не только веб-сканеров, но и ботов ИИ.

Вот пример политики robots.txt одного из ведущих новостных сайтов. Он ограничивает доступ ChatGPT, Anthropic AI, Google Gemini или ByteDance Bytespider к сканированию контента:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /
Теперь платформа аудита Cloudflare позволит клиентам отследить, как поставщики услуг ИИ соблюдают политики robots.txt, а также обязать их следовать этим политикам на сетевом уровне.

Функция аудита анализирует файлы robots.txt, а затем сопоставляет их правила с трафиком ботов ИИ на конкретном ресурсе. Она выдаёт сводную таблицу с количеством запросов и нарушений для каждого бота, а также демонстрирует политики для каждого из них во всплывающей подсказке. Ботов можно фильтровать по нарушениям.

22d035a4b54831a55661bf8d51bac570.JPG

В разделе «Самые популярные пути» будет отмечаться трафик, нарушающий политику сайта.

5480dbb64ccae913cd230b8662481e42.JPG

Robotcop будет включать опцию «Применить правила robots.txt», которая автоматически переводит правила для ботов в расширенное правило брандмауэра.

6751ca885ab663f10cc717d5c170d6b6.JPG

Функция уже доступна для всех клиентов Cloudflare через панель управления.

Ранее Cloudflare релиз открытого проекта Pingora v0.4.0. Это асинхронный многопоточный фреймворк на Rust, который помогает создавать прокси-сервисы HTTP. Проект используется для создания сервисов, обеспечивающих значительную часть трафика в Cloudflare вместо Nginx. Pingora предоставляет фильтры и обратные вызовы, позволяющие пользователям полностью настраивать то, как сервис должен обрабатывать, преобразовывать и пересылать запросы.

 
  • Теги
    cloudflare robots.txt брандмауэр
  • Назад
    Сверху Снизу