LSR / Недоступность сервисов хостинга / 31.01.21
Описание
// вкратце что произошло//
Частичная деградация производительности панели хостинга из-за некорректной работы php7.2-fpm
Предпринятые действия
// таймлайн с описанием //
- В 22:07 начинают появляться первые 499
- В 22:28 процент 499 от общего числа ответов сервера досигает 50%
- В 23:02 перезагрузка сервера с панелью
- В 23:08 перезагрузка не помогла, 499 всё ещё появляются
- В 23:34 в логах найдена проблема, быстрый фикс и рестарт php
- В 23:36 график приходит в норму, 499 больше не наблюдается
Анализ
// анализ описания //
Проблема заключалась в большом количестве активных пользователей хостинга, которые заходят на панель: из-за ограниченного числа php-воркеров (3*5 в секунду) мы достигали лимита, и последующие подключения обрывались и не обрабатывались веб-сервером, дожидаясь окончания предыдущих. Статус код 499 говорит о том, что "клиент не дождался ответа и ушел с сайта", это значит, что часть пользователей во время деградации производительности не смогла зайти на наш сайт. Проблема была обнаружена в логах php бекенда, она выглядела так: [31-Jan-2021 22:52:49] WARNING: [pool www] server reached pm.max_children setting (5), consider raising it
Диагностика
// графики //
график статус кодов ответа веб-сервера, голубой цвет - 499
график времени ответа панели на нашем статусе
график времени ответа по внутреннему мониторингу
Меры предотвращения
// что сделать, чтобы не повторилось//
Было в несколько раз увеличено количество pm.max_children
, поставлен динамический режим масштабирования воркеров в зависимости от нагрузки, а также увеличен лимит количества запросов на одного воркера.
Какие сервисы затронуты
// список сервисов //
- panel.superhub.xyz - частичная деградация производительности сервиса
Приносим свои извинения из-за недоступности сервисов