LSR / Недоступность ноды solid.mcs / 08.09.20
Описание
// вкратце что произошло//
По непонятным причинам (предположительно, проблема на стороне kvm-виртуализатора) была недоступна сеть у ноды siren.mcs
Предпринятые действия
// таймлайн с описанием //
- 14:22 начало проблем
- 14:32 первое расследование не выявило никаких проблем в виртуальной машине
- 14:35 перезагрузка инстанса
- 14:50 первые попытки быстро восстановить виртуальную машину были неуспешными
- 15:00 копирование диска вм и монтирование на рабочей ноде
- 15:15 выяснили, что данные серверов остались нетронутыми
- 15:20 параллельно развернули новый резервный инстанс
devoid.mcs.s-hub.xyz
, который должен был принять на себя нагрузку выключевшегося solid.mcs - 15:30 еще одна попытка жестко перезагрузить инстанс
- 15:32 в мониторинге пришло оповещение о доступности инстанса
Анализ
// анализ описания //
Из-за недоступности сети вм были недоступны сервера клиентов в течение одного часа. После жесткой перезагрузки работа ноды была восстановлена.
Диагностика
// графики //
График сети на solid.mcs
График возросшего времени ответа панели
Меры предотвращения
// что сделать, чтобы не повторилось//
Иметь всегда "активный бекап" ноды (наподобие devoid.mcs), который в любой момент сможет принять нагрузку на себя.
Какие сервисы затронуты
// список сервисов //
- solid.mcs.s-hub.xyz - полная недоступность ноды
- panel.superhub.xyz - деградация производительности и времени ответа сайта
Приносим свои извинения за неудобства и не снимаем плату за сервера за 08.09.20