LSR / Недоступность всех сайтов / 03.10.20
Описание
// вкратце что произошло//
В течение нескольких часов главна hosting.superhub.xyz была полностью недоступна. panel.superhub.xyz при этом частично работало, но с перебоями: невозможно было удалить сервер, а так же воспользоваться редактированием файлов на самом сайте
Предпринятые действия
// таймлайн с описанием //
- 02.10.20 18:45 - уходит СХД, в этот момент все стейтфул ноды кластера отваливаются: уходит мониторинг, feedback.hosting и часть других внутренних систем
- 02.10.20 22:00 - выяснена проблема - короткое замыкание в блоке питания сервера СХД. Это затронуло в том числе ИБП, на котором он работал, а так же часть других серверов
- 03.10.20 06:50 - уходит мастер сервер кластера k8s, в связи с чем теряется кворум и поды в кластере не могут рестариться
- 03.10.20 08:15 - уходит под с redis, который обеспечивает кеш панели. в это время панель становится недоступна. так же в это время ушли поды, обеспечивающие доступность сайта хостинга
- 03.10.20 08:20 - с этого момента сайт хостинга начинает работать с перебоями: либо он открывается очень долго, либо не открывается вовсе
- 03.10.20 09:30 - частично восстановлена доступность панели: пропала 500 ошибка при входе, а так же появилась возможность останавливать/запускать сервера
- 03.10.20 11:30 - начаты работы по замене бп в СХД
- 03.10.20 14:30 - работы, синк дисков, замена сломанного оборудования закончена
- 03.10.20 14:45 - трафик начинает приходить на СХД, мониторинг начинает работать
- 03.10.20 15:10 - начало восстановления k8s кластера
- 03.10.20 15:40 - конец восстановления кластера k8s
- 03.10.20 15:45 - поды кластера начинаю запускаться, сайт hosting.superhub снова доступен
- 03.10.20 16:05 - переключение кеш драйвера панели обратно на redis
Анализ
// анализ описания //
Из-за короткого замыкания в блоке питания СХД стала недоступна стейтфул часть кластера. При этом хостинг работает на стейтлесс архитектуре. 02.10 это не вызвало проблем.
Однако из-за того, что 03.10 потерялся кворум кластера k8s он не смог восстановиться, и полностью пропала связность сайтов с внешним миром.
Диагностика
// графики //
график времени ответа панели при ее недоступности. просадка на графике - полная недоступность панели
график недоступности hosting.superhub, пилы - полная недоступность сайта
график сети СХД в момент КЗ
график сети мастера k8s, который стал недоступен в 6 утра
график сети ядра сети. полная просадка - полностью недоступный кластер k8s
Меры предотвращения
// что сделать, чтобы не повторилось//
Резервация k8s мастеров х3 для кворума
Какие сервисы затронуты
// список сервисов //
- feedback.hosting.superhub.xyz - полная недоступность сайта
- hosting.superhub.xyz - частичная недоступность сайта
- panel.superhub.xyz - деградация производительности и времени ответа сайта
- cdn.hosting.superhub.xyz - частичная недоступность сайта
- img.share.superhub.xyz - полная недоступность сайта (невозможность загрузить картинки на вики страницах)
Приносим свои извинения за неудобства и не снимаем плату за сервера за 03.10.20. также в качестве компенсации на неделю предоставляем промокод SORRY2
на 15% скидки перманентно на все новые сервера