LSR / Недоступность сервисов хостинга / 31.01.21

Описание

// вкратце что произошло//

Частичная деградация производительности панели хостинга из-за некорректной работы php7.2-fpm

Предпринятые действия

// таймлайн с описанием //

  • В 22:07 начинают появляться первые 499
  • В 22:28 процент 499 от общего числа ответов сервера досигает 50%
  • В 23:02 перезагрузка сервера с панелью
  • В 23:08 перезагрузка не помогла, 499 всё ещё появляются
  • В 23:34 в логах найдена проблема, быстрый фикс и рестарт php
  • В 23:36 график приходит в норму, 499 больше не наблюдается

Анализ

// анализ описания //

Проблема заключалась в большом количестве активных пользователей хостинга, которые заходят на панель: из-за ограниченного числа php-воркеров (3*5 в секунду) мы достигали лимита, и последующие подключения обрывались и не обрабатывались веб-сервером, дожидаясь окончания предыдущих. Статус код 499 говорит о том, что "клиент не дождался ответа и ушел с сайта", это значит, что часть пользователей во время деградации производительности не смогла зайти на наш сайт. Проблема была обнаружена в логах php бекенда, она выглядела так: [31-Jan-2021 22:52:49] WARNING: [pool www] server reached pm.max_children setting (5), consider raising it

Диагностика

// графики //

график статус кодов ответа веб-сервера, голубой цвет - 499

график времени ответа панели на нашем статусе

график времени ответа по внутреннему мониторингу

Меры предотвращения

// что сделать, чтобы не повторилось//

Было в несколько раз увеличено количество pm.max_children, поставлен динамический режим масштабирования воркеров в зависимости от нагрузки, а также увеличен лимит количества запросов на одного воркера.

Какие сервисы затронуты

// список сервисов //

  • panel.superhub.xyz - частичная деградация производительности сервиса

Приносим свои извинения из-за недоступности сервисов