LSR / Недоступность ноды solid.mcs / 08.09.20

Описание

// вкратце что произошло//

По непонятным причинам (предположительно, проблема на стороне kvm-виртуализатора) была недоступна сеть у ноды siren.mcs

Предпринятые действия

// таймлайн с описанием //

  • 14:22 начало проблем
  • 14:32 первое расследование не выявило никаких проблем в виртуальной машине
  • 14:35 перезагрузка инстанса
  • 14:50 первые попытки быстро восстановить виртуальную машину были неуспешными
  • 15:00 копирование диска вм и монтирование на рабочей ноде
  • 15:15 выяснили, что данные серверов остались нетронутыми
  • 15:20 параллельно развернули новый резервный инстанс devoid.mcs.s-hub.xyz, который должен был принять на себя нагрузку выключевшегося solid.mcs
  • 15:30 еще одна попытка жестко перезагрузить инстанс
  • 15:32 в мониторинге пришло оповещение о доступности инстанса

Анализ

// анализ описания //

Из-за недоступности сети вм были недоступны сервера клиентов в течение одного часа. После жесткой перезагрузки работа ноды была восстановлена.

Диагностика

// графики //

График сети на solid.mcs

График возросшего времени ответа панели

Меры предотвращения

// что сделать, чтобы не повторилось//

Иметь всегда "активный бекап" ноды (наподобие devoid.mcs), который в любой момент сможет принять нагрузку на себя.

Какие сервисы затронуты

// список сервисов //

  • solid.mcs.s-hub.xyz - полная недоступность ноды
  • panel.superhub.xyz - деградация производительности и времени ответа сайта

Приносим свои извинения за неудобства и не снимаем плату за сервера за 08.09.20