Глобальный сбой из-за пятничного релиза CrowdStrike

BOOX

Стаж на ФС с 2012 года
Команда форума
Служба безопасности
Private Club
Регистрация
23/1/18
Сообщения
29.223
Репутация
11.695
Реакции
61.957
RUB
50
История о том, как CrowdStrike выпустила обновление в пятницу и «положила» сотни, тысячи или десятки тысяч компьютеров по всему миру.

Слышали когда-нибудь негласное правило: «Никогда не выпускать релизы в пятницу»? Мы — да, а вот компания CrowdStrike, кажется, нет. Наши «коллеги по цеху» обычным пятничным утром выпустили малюсенький драйвер, который стал причиной грандиозного компьютерного сбоя по всему миру.

Некорректное обновление решения CrowdStrike EDR затронуло устройства под управлением Windows по всему миру — все они в одночасье корпоративным пользователям . Сбой затронул, например, информационные системы аэропортов в США, Испании, Германии, Нидерландах и других странах.
Кто еще пострадал от пятничного релиза CrowdStrike и как отменить «окирпичивание» компьютера — в этом материале.

Глобальный сбой клиентов Microsoft из-за обновления CrowdStrike

Что случилось

Все началось ранним утром пятницы: пользователи по всему миру сообщали о проблемах с Windows. Сначала грешили на сбой в Microsoft Azure, а позднее компания CrowdStrike , что первопричина все-таки в драйвере csagent.sys или C-00000291*.sys для CrowdStrike EDR. Именно он и стал причиной обилия забавных фотографий на фоне синих экранов.


Синий экран смерти на всех компьютерах = выходной у линейных сотрудников аэропортов

Если бы мы захотели перечислить всех, кто пострадал от этого сбоя, то нам бы не хватило и нескольких постов, поэтому коротко расскажем об основных жертвах халатности CrowdStrike. Больше всего пострадали авиационные компании, аэропорты и люди, которые хотят вернуться домой или отправиться в долгожданный отпуск:
  • Аэропорт Хитроу в Лондоне, как и многие другие, о задержках рейсов из-за технологического сбоя.
  • Авиакомпания Scandinavian Airlines добавила на свой сайт уведомление: «Некоторые клиенты могут испытывать трудности с бронированием из-за IT-проблемы, затрагивающей несколько стран. SAS работает в полном объеме, но ожидаются задержки».
  • В Новой Зеландии возникли в работе банковских, коммуникационных и транспортных систем.
Пострадали различные медицинские центры, сетевые магазины, нью-йоркское метро, крупнейший банк Южной Африки и многие другие организации, которые каждый день делают нашу жизнь лучше и удобнее. Полный список пострадавших от сбоя можно изучить — он ежеминутно увеличивается.

Как исправить ошибку CrowdStrike

На текущем этапе достаточно проблематично оценить, сколько времени займет полное восстановление тех или иных информационных систем в мире. Все осложняется тем, что пользователям необходимо перезагрузить свои компьютеры в безопасном режиме вручную. А в больших корпорациях это, как правило, невозможно сделать самостоятельно без помощи системного администратора.

Тем не менее, вот инструкция по избавлению от проблемы с CrowdStrike – синего экрана смерти, вызванного обновлением их драйвера:
  • Загрузите компьютер в безопасном режиме.
  • Перейдите в C:\Windows\System32\drivers\CrowdStrike.
  • Найдите и удалите файл sys или C-00000291*.sys.
  • Перезагрузите компьютер в нормальном режиме.
А пока этим будут заниматься ваши сисадмины, можете воспользоваться индийским лайфхаком: там сотрудники одного из аэропортов стали вручную заполнять посадочные талоны.


В Индии не слишком переживают из-за глобального сбоя

Как можно было избежать сбоя

Избежать подобной ситуации можно было достаточно просто. Во-первых, не выпускать обновления в пятницу 😀. В случае ошибки остается слишком мало времени на исправление, сисадмины всех пострадавших от сбоя CrowdStrike компаний почти наверняка будут работать все выходные над исправлением проблемы.

Но самое главное – максимально ответственно относиться к качеству выпускаемых обновлений.

Необходимо соблюдать принцип гранулированного выпуска релизов. Обновления следует распространять постепенно, а не сразу на всех заказчиков. Такой подход дает возможность моментально среагировать и в случае необходимости остановить апдейт. Если у наших пользователей случается какая-то проблема, то мы ее обязательно регистрируем, ее решение становится приоритетом на всех уровнях компании.

Как и в случаях с инцидентами в кибербезопасности, помимо устранения видимого ущерба нужно найти первопричину, чтобы предотвратить проблемы такого рода в будущем. Необходимо проверять работоспособность обновлений программных продуктов на тестовой инфраструктуре перед раскаткой на «боевую» инфраструктуру компании, внедрять изменения постепенно, отслеживая возможные сбои.

Работа с инцидентами должна быть основана на комплексном подходе к построению защиты от доверенного поставщика с высокими внутренними требованиями к безопасности, качеству и доступности своих сервисов. Позаботьтесь о безопасности своей инфраструктуры, чтобы следующий не коснулся ваших клиентов.


 
  • Теги
    crowdstrike
  • Сверху Снизу