LSR / Недоступность сервисов хостинга / 27.06.20

Описание

// вкратце что произошло//

Из-за недоступности мастера kubernetes и развалившегося etcd-кластера были порестарчены все воркеры, а в связи с ошибками восстановления etcd потеря доступности нод кластера и последующая невозможность деплоя контейнеров.

Предпринятые действия

// таймлайн с описанием //

  • В 09:30 ушел мастер кубернетеса
  • В 10:30 были начаты работы по восстановлению кластера
  • В 13:00 была полностью восстановлена работа кластера

Анализ

// анализ описания //

Из-за падения мастера и невозможности быстрого восстановления etcd все воркеры были порестарчены, а так как им неоткуда было забирать инфомрацию о деплое контейнеров - то они просто ничего не делали. Это вызвало недоступность сервисов *.hosting.superhub.xyz, а также panel.superhub.xyz и части других внутренних ресурсов

Диагностика

// графики //

Меры предотвращения

// что сделать, чтобы не повторилось//

На данный момент мы поднимаем вторую ноду etcd для корректной работы кластера при недоступности первой. Это частично решит проблему, однако при недоступности кворума (n/2+1) всё равно возможна недоступность сервисов. При повторном проявлении проблемы будут предприняты другие меры (кворум из трех серверов)

Какие сервисы затронуты

// список сервисов //

  • panel.superhub.xyz - частичная деградация сервиса из-за недоступности редиса
  • hosting.superhub.xyz - полная недоступность сервиса
  • feedback.hosting.superhub.xyz - полная недоступность сервиса
  • haproxy для обхода блокировки - полная недоступность сервиса

Приносим свои извинения и в качестве компенсации не снимаем деньги за 27.06 из-за недоступности сервисов