Управление отказами (Fault Management) — комплексный подход к обнаружению и решению проблем, зарегистрированных на сети.
Ниже представлена иллюстрация принципа работы системы управления отказами.
Основная идея реализованного в ECCM подхода состоит в том, чтобы агрегировать события, зарегистрированные в различных источниках, в единый журнал, подходящий для дальнейшего анализа. Далее зарегистрированные события обрабатываются: система проверяет, какие события и с какой периодичностью происходили в сети. На основе проведенного анализа формируется вывод о возможности возникновения проблем. Сведения о проблемах записываются в журнал. Пользователям системы, которые подписались на рассылку уведомлений, на указанный канал связи отправляется уведомление о зарегистрированной проблеме.
Таким образом, алгоритм работы включает несколько этапов:
- Сбор первоначальных данных и сохранение их в базе данных;
- Проверка первоначальных данных по условиям, прописанным в правилах генерации событий. Запись зарегистрированных событий в журнал событий;
- Обнаружение проблем: анализ последовательностей событий по условиям, прописанным в правилах генерации проблем. Запись обнаруженных проблем в журнал проблем;
- Рассылка оповещений о проблемах пользователям.
- Ожидание действия от пользователей.