Любая сложная информационная система нуждается в постоянном мониторинге — без него она превращается в «чёрный ящик», где любые неполадки становятся неожиданностью и серьёзной угрозой для бизнеса.
При отсутствии мониторинга резко возрастает риск длительных простоев критически важных сервисов, без системы отслеживания состояния инфраструктуры невозможно вовремя заметить предвестников сбоев, будь то рост нагрузки, утечки памяти или задержки в ответах. Не имея доступа к историческим данным и логам, невозможно восстановить хронологию инцидентов и понять их истинную причину, а значит, и предотвратить повторение ситуации.
Отсутствие непрерывного контроля за производительностью ведёт к неоптимальному использованию ресурсов: компания либо переплачивает за избыточные мощности, либо сталкивается с «узкими местами», тормозящими работу всей системы. При этом прогнозировать будущую нагрузку и обосновано планировать масштабирование становится практически невозможно.
Без постоянного контроля доступности и стабильности сервисов отсутствует возможность оперативно реагировать на возникающие проблемы.
Пренебрежение мониторингом оборачивается значительными финансовыми и репутационными потерями, тогда как его внедрение становится важной инвестицией в устойчивость и безопасность ИТ‑инфраструктуры.
Ниже рассмотрены возможности мониторинга систем телефонии компании Eltex.
Peeper — система мониторинга программных продуктов Eltex.
Архитектура Peeper состоит из двух частей:
Все ПО предоставляются в виде Docker-образов, размещенных в публичных репозиториях, и файлов compose.yml и .env для разворачивания контейнеров.
Peeper прост в развертывании и эксплуатации, что имеет важность для системы мониторинга.
Peeper позволяет:
В архитектуре Peeper предусмотрено, что для получения метрик со стороны Peeper Client не требуется открывать никаких дополнительных портов на стороне сервера с программным продуктом Eltex. Отправка метрик с этого сервера производится методом Push.
Все входящие запросы в Peeper Server идут по HTTPs через Peeper Proxy по 443 порту.
Peeper построен на базе свободного ПО Grafana и Telegraf. Основную ценность Pepper составляют специально разработанные для ПО Eltex сборщики метрик и информационные панели (дашборды).
Интерфейс пользователя Pepper построен на базе общеизвестной системы анализа и отображения данных Grafana, которая позволяет визуализировать данные различными способами.
Peeper поставляется в комплекте с Информационными панелями для наблюдения за операционными системами, но которых устанавливается ПО Eltex и с Информационными панелями непосредственно для ПО, такого как ECCM, SoftWLC и SoftSwitch.
Общесистемные дашборды включают, но не ограничиваются:
Дашборды Softwich распределены по трем разделам:
Ниже описаны подробнее два первых раздела.
Раздел «Основные метрики» объединяет следующие Информационные панели:
Рисунок 1. Метрики MSR
На Информационной панели «Метрики MSR» представлены метрики работы Медиасерверов. Загрузка центральных процессоров, Количество аудио и видео потоков, MOS оценка качества входящего и исходящего аудиопотоков, данные о джиттере, задержке и потере пакетов.
Рисунок 2. Метрики SIP
На Информационной панели «Метрики SIP» представлена статистика работы Softswitch по протоколу SIP. Общее количество SIP-запросов, Интенсивность запросов по типам (INVITE, REGISTER, BYE и т. д.), Интенсивность новых вызовов, Динамика изменения интенсивностей.
Рисунок 3. Метрики колл-центра
На Информационной панели «Метрики колл-центра» представлена информация о Количестве активных вызовов в разрезе очередей, Заполненность очередей ожидающими клиентами, Информация о количестве и причинах отбоев по очередям, Нагрузка и изменение интенсивности нагрузки на колл-центр.
Рисунок 4. Общие метрики вызовов
На Информационной панели «Общие метрики вызовов» отображаются Количество активных вызовов, Количество отбоев вызовов с разбивкой по причинам, Графики количества вызовов по часам и за последний час.
Рисунок 5. Общие метрики SSW
На Информационной панели «Общие метрики SSW» собраны основные параметры из остальных разделов, и добавлены такие параметры как информация о времени затраченном на сбор метрик по типам.
Раздел Системные метрики объединяет следующие дашборды:
Мониторинг Glusterfs split-brain тома ecss_volume;
Мониторинг сети между хостами.

Рисунок 6. Мониторинг Glusterfs
На Информационной панели «Мониторинг Glusterfs» представлены параметры работы Gluserfs, используемой в Softswitch GlusterFS для раздела /var/lib/ecss/restfs, где находится распределенная БД для хранения медиаресурсов, а именно: Время работы компонентов Glusterfs, Заполненность хранилища, Общие параметры (количество томов, количество бриков, количество реплик).

Рисунок 7а. Мониторинг Glusterfs split-brain тома ecss_volume. Нормальная работа

Рисунок 7б. Мониторинг Glusterfs split-brain тома ecss_volume. Нарушена синхронизация
Информационная панель «Мониторинг Glusterfs split-brain тома ecss_volume» отображает состояние синхронизации файлов в разделе Glusterfs. В случае нарушения синхронизации отображается количество несинхронизированных файлов.

Рисунок 8. Мониторинг сети между хостами
Информационная панель «Мониторинг сети между хостами» отображает состояние состояние сети внутри кластера Softswitch, Потери пакетов, сетевую задержку и Джиттер.
При мониторинге подсистем IP-телефонии не следует забывать о мониторинге ресурсов инфраструктуры. Потребление оперативной памяти, загрузка процессора, свободное место на жестких дисках, общая загруженность системы — все эти параметры отображены в Дашборде «Linux System Dashboard» раздела «General Dashboards – общие дашборды».
Рисунок 9. Мониторинг операционной системы
Также не стоит забывать о мониторинге самой системы мониторинга. Закончившееся место на хранилище данных или повышенная загрузка операционной системы системы мониторинга могут помешать отследить критическое отклонение параметров или отправить вовремя уведомление администратору. По умолчанию Peeper мониторит сам себя. Собранные данные можно увидеть на тех же дашбордах, что и данные об операционных системах Softswitch.
Рисунок 10. Выбор наблюдаемого устройства
Отказ каналов связи или резкий отказ аппаратного обеспечения системы мониторинга не позволит оповестить администратора о произошедшем. Поэтому разумно также производить хотя бы минимальный мониторинг самого Peeper через внешнюю систему. Это может быть как второй Peeper, так и другая система мониторинга, установленная на другой площадке или имеющая другие каналы выхода в сеть Интернет.
Конечно, Информационные панели системы мониторинга можно вывести на отдельный монитор или телевизор и выделить отдельного сотрудника для слежения за параметрами, но Информационных панелей много, на каждой панели отображается множество параметров, и отследить отклонение от нормальных значений очень не просто. Для решения этой задачи в Peeper предусмотрена и частично преднастроена система оповещений (Alerting). Для получения Оповещений необходимо указать API Token бота и Chat ID получателя Оповещений.
Тем не менее стоит периодически просматривать Информационные панели. Некоторые тенденции к отклонениям значительно проще определить визуально.
Документацию по установке и настройке Peeper можно найти в документации на сайте.