LSR / Недоступность сайтов хостинга / 05.07.20 - 07.07.20

Описание

// вкратце что произошло//

Из-за проблем с интернет-кабелем и отпуском админа хостинга произошел длительный даунтайм всех сайтов хостинга

Предпринятые действия

// таймлайн с описанием //

  • 05.07.20 в 21:43 пропала связность со всеми сайтами хостинга. зазвонил внешний мониторинг
  • 05.07.20 в 22:10 товарищ в Москве помог - обнаружил проблему, которая была в пробитом интернет-кабеле
  • 05.07.20 в 22:19 отправил запрос провайдеру на выезд мастера с заменой
  • 07.07.20 в 13:53 после технических работ, рестарта всех сервисов и серверов работа сайтов хостинга восстановилась

Анализ

// анализ описания //

Из-за одного линка без резервации все сайты хостинга оказались затронуты инцидентом. Сервера клиентов при этом это никак не затронуло.

Диагностика

// графики //

График просадки и недоступности по сети

Меры предотвращения

// что сделать, чтобы не повторилось//

Такая ситуация в теории больше не повторится, либо даже если и так - даунтайм бы составил ночь (до приезда инженера с утра, а не через день). В противном случае при повторе инцидента часть сервисов будет либо задублирована на серверах в датацентре (где хостятся ноды клиентов), либо будет куплен резервный канал

Какие сервисы затронуты

// список сервисов //

  • panel.superhub.xyz - полная недоступность сервиса
  • hosting.superhub.xyz - полная недоступность сервиса
  • feedback.hosting.superhub.xyz - полная недоступность сервиса
  • haproxy для обхода блокировки - полная недоступность сервиса
  • шедулер для рестартов серверов - полная недоступность сервиса
  • sftp-доступ до серверов - полная недоступность сервиса

Приносим свои извинения и в качестве компенсации не снимаем деньги за 05.07-07.07 из-за недоступности сервисов