Введение
Любая сложная информационная система нуждается в постоянном мониторинге — без него она превращается в «чёрный ящик», где любые неполадки становятся неожиданностью и серьёзной угрозой для бизнеса.
При отсутствии мониторинга резко возрастает риск длительных простоев критически важных сервисов, без системы отслеживания состояния инфраструктуры невозможно вовремя заметить предвестников сбоев, будь то рост нагрузки, утечки памяти или задержки в ответах. Не имея доступа к историческим данным и логам, невозможно восстановить хронологию инцидентов и понять их истинную причину, а значит, и предотвратить повторение ситуации.
Отсутствие непрерывного контроля за производительностью ведёт к неоптимальному использованию ресурсов: компания либо переплачивает за избыточные мощности, либо сталкивается с «узкими местами», тормозящими работу всей системы. При этом прогнозировать будущую нагрузку и обосновано планировать масштабирование становится практически невозможно.
Без постоянного контроля доступности и стабильности сервисов отсутствует возможность оперативно реагировать на возникающие проблемы.
Пренебрежение мониторингом оборачивается значительными финансовыми и репутационными потерями, тогда как его внедрение становится важной инвестицией в устойчивость и безопасность ИТ‑инфраструктуры.
Ниже рассмотрены возможности мониторинга систем телефонии компании Eltex.
Peeper
Общая информация
Peeper — система мониторинга программных продуктов Eltex.
Архитектура Peeper состоит из двух частей:
- Клиентская — устанавливается на одном сервере с продуктом, например ECCM, Softswitch или SoftWLC. В ее задачи входит сбор метрик и их отправка на серверную часть.
- Серверная — в ее задачи входит агрегация и хранение метрик и логов, визуализация данных в виде графиков, отправка уведомлений об авариях и оповещений безопасности в Telegram.
Все ПО предоставляются в виде Docker-образов, размещенных в публичных репозиториях, и файлов compose.yml и .env для разворачивания контейнеров.
Для чего необходим Peeper
- Предотвращать появление чрезвычайной ситуации на серверах и приложениях клиента заранее.
- В случае ЧС иметь возможность разрешить инцидент (иметь всю необходимую информацию в одном месте для того, чтобы завершить расследование).
- Иметь возможность оперативно оценить внутреннее состояние системы по ее внешним показателям.
Функции и свойства Peeper
Peeper прост в развертывании и эксплуатации, что имеет важность для системы мониторинга.
Peeper позволяет:
- собирать, хранить метрики и логи;
- визуализировать данные в виде дашбордов, графиков, диаграмм, таблиц;
- высылать уведомления в случае срабатывания триггера по какой-либо метрике.
Архитектура Peeper
В архитектуре Peeper предусмотрено, что для получения метрик со стороны Peeper Client не требуется открывать никаких дополнительных портов на стороне сервера с программным продуктом Eltex. Отправка метрик с этого сервера производится методом Push.
Все входящие запросы в Peeper Server идут по HTTPs через Peeper Proxy по 443 порту.
Peeper построен на базе свободного ПО Grafana и Telegraf. Основную ценность Pepper составляют специально разработанные для ПО Eltex сборщики метрик и информационные панели (дашборды).
Интерфейс пользователя
Интерфейс пользователя Pepper построен на базе общеизвестной системы анализа и отображения данных Grafana, которая позволяет визуализировать данные различными способами.
Информационные панели
Peeper поставляется в комплекте с Информационными панелями для наблюдения за операционными системами, но которых устанавливается ПО Eltex и с Информационными панелями непосредственно для ПО, такого как ECCM, SoftWLC и SoftSwitch.
Общесистемные дашборды включают, но не ограничиваются:
- дашборды Docker;
- дашборд ОС Linux;
- дашборд безопасности.
Информационные панели SoftSwitch
Дашборды Softwich распределены по трем разделам:
- Основные метрики — раздел мониторинга непосредственно Softswitch;
- Системные метрики — раздел мониторинга свойств окружения, непосредственно связанных с Softswich;
- Дополнительные отладочные метрики — раздел мониторинга взаимодействия компонентов Softswich. Используется при глубоком траблшутинге. Понимание метрик раздела требует понимания внутреннего устройства Softswich и далее в статье рассмотрено не будет.
Ниже описаны подробнее два первых раздела.
Основные метрики
Раздел «Основные метрики» объединяет следующие Информационные панели:
- Метрики MSR;
- Метрики SIP;
- Метрики колл-центра;
- Общие метрики SSW;
- Общие метрики вызовов.
Рисунок 1. Метрики MSR
На Информационной панели «Метрики MSR» представлены метрики работы Медиасерверов. Загрузка центральных процессоров, Количество аудио и видео потоков, MOS оценка качества входящего и исходящего аудиопотоков, данные о джиттере, задержке и потере пакетов.
Рисунок 2. Метрики SIP
На Информационной панели «Метрики SIP» представлена статистика работы Softswitch по протоколу SIP. Общее количество SIP-запросов, Интенсивность запросов по типам (INVITE, REGISTER, BYE и т. д.), Интенсивность новых вызовов, Динамика изменения интенсивностей.
Рисунок 3. Метрики колл-центра
На Информационной панели «Метрики колл-центра» представлена информация о Количестве активных вызовов в разрезе очередей, Заполненность очередей ожидающими клиентами, Информация о количестве и причинах отбоев по очередям, Нагрузка и изменение интенсивности нагрузки на колл-центр.
Рисунок 4. Общие метрики вызовов
На Информационной панели «Общие метрики вызовов» отображаются Количество активных вызовов, Количество отбоев вызовов с разбивкой по причинам, Графики количества вызовов по часам и за последний час.
Рисунок 5. Общие метрики SSW
На Информационной панели «Общие метрики SSW» собраны основные параметры из остальных разделов, и добавлены такие параметры как информация о времени затраченном на сбор метрик по типам.
Системные метрики
Раздел Системные метрики объединяет следующие дашборды:
- Мониторинг Glusterfs;
Мониторинг Glusterfs split-brain тома ecss_volume;
Мониторинг сети между хостами.
Рисунок 6. Мониторинг Glusterfs
На Информационной панели «Мониторинг Glusterfs» представлены параметры работы Gluserfs, используемой в Softswitch GlusterFS для раздела /var/lib/ecss/restfs, где находится распределенная БД для хранения медиаресурсов, а именно: Время работы компонентов Glusterfs, Заполненность хранилища, Общие параметры (количество томов, количество бриков, количество реплик).
Рисунок 7а. Мониторинг Glusterfs split-brain тома ecss_volume. Нормальная работа
Рисунок 7б. Мониторинг Glusterfs split-brain тома ecss_volume. Нарушена синхронизация
Информационная панель «Мониторинг Glusterfs split-brain тома ecss_volume» отображает состояние синхронизации файлов в разделе Glusterfs. В случае нарушения синхронизации отображается количество несинхронизированных файлов.
Рисунок 8. Мониторинг сети между хостами
Информационная панель «Мониторинг сети между хостами» отображает состояние состояние сети внутри кластера Softswitch, Потери пакетов, сетевую задержку и Джиттер.
Общие Информационные панели
При мониторинге подсистем IP-телефонии не следует забывать о мониторинге ресурсов инфраструктуры. Потребление оперативной памяти, загрузка процессора, свободное место на жестких дисках, общая загруженность системы — все эти параметры отображены в Дашборде «Linux System Dashboard» раздела «General Dashboards – общие дашборды».
Рисунок 9. Мониторинг операционной системы
Также не стоит забывать о мониторинге самой системы мониторинга. Закончившееся место на хранилище данных или повышенная загрузка операционной системы системы мониторинга могут помешать отследить критическое отклонение параметров или отправить вовремя уведомление администратору. По умолчанию Peeper мониторит сам себя. Собранные данные можно увидеть на тех же дашбордах, что и данные об операционных системах Softswitch.
Рисунок 10. Выбор наблюдаемого устройства
Отказ каналов связи или резкий отказ аппаратного обеспечения системы мониторинга не позволит оповестить администратора о произошедшем. Поэтому разумно также производить хотя бы минимальный мониторинг самого Peeper через внешнюю систему. Это может быть как второй Peeper, так и другая система мониторинга, установленная на другой площадке или имеющая другие каналы выхода в сеть Интернет.
Оповещения
Конечно, Информационные панели системы мониторинга можно вывести на отдельный монитор или телевизор и выделить отдельного сотрудника для слежения за параметрами, но Информационных панелей много, на каждой панели отображается множество параметров, и отследить отклонение от нормальных значений очень не просто. Для решения этой задачи в Peeper предусмотрена и частично преднастроена система оповещений (Alerting). Для получения Оповещений необходимо указать API Token бота и Chat ID получателя Оповещений.
Тем не менее стоит периодически просматривать Информационные панели. Некоторые тенденции к отклонениям значительно проще определить визуально.
Документация
Документацию по установке и настройке Peeper можно найти в документации на сайте.










