LSR / Недоступность сервисов хостинга / 27.06.20
Описание
// вкратце что произошло//
Из-за недоступности мастера kubernetes и развалившегося etcd-кластера были порестарчены все воркеры, а в связи с ошибками восстановления etcd потеря доступности нод кластера и последующая невозможность деплоя контейнеров.
Предпринятые действия
// таймлайн с описанием //
- В 09:30 ушел мастер кубернетеса
- В 10:30 были начаты работы по восстановлению кластера
- В 13:00 была полностью восстановлена работа кластера
Анализ
// анализ описания //
Из-за падения мастера и невозможности быстрого восстановления etcd все воркеры были порестарчены, а так как им неоткуда было забирать инфомрацию о деплое контейнеров - то они просто ничего не делали. Это вызвало недоступность сервисов *.hosting.superhub.xyz, а также panel.superhub.xyz и части других внутренних ресурсов
Диагностика
// графики //
Меры предотвращения
// что сделать, чтобы не повторилось//
На данный момент мы поднимаем вторую ноду etcd для корректной работы кластера при недоступности первой. Это частично решит проблему, однако при недоступности кворума (n/2+1) всё равно возможна недоступность сервисов. При повторном проявлении проблемы будут предприняты другие меры (кворум из трех серверов)
Какие сервисы затронуты
// список сервисов //
- panel.superhub.xyz - частичная деградация сервиса из-за недоступности редиса
- hosting.superhub.xyz - полная недоступность сервиса
- feedback.hosting.superhub.xyz - полная недоступность сервиса
- haproxy для обхода блокировки - полная недоступность сервиса
Приносим свои извинения и в качестве компенсации не снимаем деньги за 27.06 из-за недоступности сервисов