Бесплатный помощник админа. EMCO Ping Monitor. Бесплатный помощник админа Программа мониторинга пинга

По виду этой оптики, идущей по лесу к коллектору, можно заключить, что монтажник немного не соблюдал технологию. Крепление на фото также подсказывает, что он, наверное, моряк – узел-то морской.

Я из команды обеспечения физической работоспособности сети, проще говоря – техподдержки, отвечающей за то, чтобы лампочки на роутерах мигали, как надо. У нас «под крылом» разные крупные компании с инфраструктурой по всей стране. Внутрь их бизнеса не лезем, наша задача – чтобы работала сеть на физическом уровне и трафик проходил как надо.

Общий смысл работы – постоянный опрос узлов, снятие телеметрии, прогоны тестов (например, проверка настроек для поиска уязвимостей), обеспечение работоспособности, мониторинг приложений, трафика. Иногда инвентаризации и прочие извращения.

Расскажу про то, как это организовано и пару историй с выездов.

Как это обычно бывает

Наша команда сидит в офисе в Москве и снимает телеметрию сети. Собственно, это постоянные пинги узлов, а также получение данных мониторинга, если железки умные. Самая частая ситуация – пинг не проходит несколько раз подряд. В 80% случаев для розничной сети, например, это оказывается отключением электропитания, поэтому мы, видя такую картину, делаем следующее:
  1. Сначала звоним провайдеру по поводу аварий
  2. Потом – на электростанцию по поводу отключения
  3. Затем пытаемся установить связь с кем-нибудь на объекте (это не всегда удаётся, например, в 2 ночи)
  4. И, наконец, если за 5-10 минут вышеописанное не помогло, выезжаем сами или отправляем «аватара» - инженера-контрактника, сидящего где-нибудь в Ижевске или Владивостоке, если проблема там.
  5. С «аватаром» держим постоянную связь и «ведём» его по инфраструктуре - у нас датчики и сервис-мануалы, у него- плоскогубцы.
  6. Потом инженер присылает нам отчёт с фото по поводу того, что же это было.

Диалоги иногда такие:
- Так, связь пропадает между зданиями №4 и 5. Проверь роутер в пятом.
- Порядок, включён. Коннекта нет.
- Ок, иди по кабелю до четвёртого корпуса, там ещё узел.
-… Оппа!
- Что случилось?
- Тут 4-й дом снесли.
- Что??
- Прикладываю фото в отчёт. Дом в SLA восстановить не смогу.

Но чаще всё же получается найти обрыв и восстановить канал.

Примерно 60% выездов – «в молоко», потому что либо перебито питание (лопатой, прорабом, злоумышленниками), либо провайдер не знает про свой сбой, либо же кратковременная проблема устраняется до прибытия монтажника. Однако бывают ситуации, когда мы узнаём о проблеме раньше пользователей и раньше ИТ-служб заказчика, и сообщаем о решении до того, как они вообще поймут, что что-то случилось. Чаще всего такие ситуации случаются ночью, когда активность в компаниях заказчиков низкая.

Кому это надо и зачем

Как правило, у любой крупной компании есть свой IT-отдел, который чётко понимает специфику и задачи. В среднем и большом бизнесе работу «эникеев» и инженеров-сетевиков часто аутсорсят. Это просто выгодно и удобно. Например, один ритейлер имеет своих очень крутых айтишников, но занимаются они далеко не заменой роутеров и выслеживанием кабеля.

Что мы делаем

  1. Работаем по обращениям - тикеты и панические звонки.
  2. Делаем профилактику.
  3. Следим за рекомендациями вендоров железа, например, по срокам ТО.
  4. Подключаемся к мониторингу заказчика и снимаем с него данные, чтобы выезжать по инцидентам.
С мониторингом история часто заключается в том, что его нет. Или он был поднят 5 лет назад и не очень актуален. В самом простом случае, если мониторинга реально нет, предлагаем заказчику простой опенсорсный русский Zabbix бесплатно – и ему хорошо, и нам проще.

Первый способ - simple cheсks - это просто машина, которая пингует все узлы сети и следит за тем, чтобы они правильно отвечали. Такая реализация не требует вообще никаких изменений или минимальных косметических изменений в сети заказчика. Как правило, в очень простом случае мы ставим Заббикс прямо к себе в один из дата-центров (благо у нас их целых два в офисе КРОК на Волочаевской). В более сложном, например, если используется своя защищённая сеть – на одну из машин в ЦОДе заказчика:

Заббикс можно применять и сложнее, например, у него есть агенты, которые ставятся на *nix и win-узлы и показывают системный мониторинг, а также режим external check (с поддержкой протокола SNMP). Тем не менее, если бизнесу нужно что-то подобное, то либо у них уже есть свой мониторинг, либо выбирается более функционально-богатый вариант решения. Конечно, это уже не открытое ПО, и это стоит денег, но даже банальная точная инвентаризация уже примерно на треть отбивает затраты.

Это мы тоже делаем, но это история коллег. Вот они прислали пару скринов Инфосима:

Я же оператор «аватара», поэтому расскажу дальше о своей работе.

Как выглядит типовой инцидент

Перед нами экраны с вот таким общим статусом:

На этом объекте Zabbix собирает для нас довольно много информации: партийный номер, серийный номер, загрузка ЦПУ, описание устройства, доступность интерфейсов и т.п. Вся необходимая информация доступна из этого интерфейса.

Рядовой инцидент обычно начинается с того, что отваливается один из каналов, ведущих к, например, магазину заказчика (которых у него штук 200-300 по стране). Розница сейчас прошаренная, не то что лет семь назад, поэтому касса продолжит работу - каналов два.

Мы берёмся за телефоны и делаем минимум три звонка: провайдеру, электростанции и людям на месте («Да, мы тут арматуру грузили, чей-то кабель задели… А, ваш? Ну, хорошо, что нашли»).

Как правило, без мониторинга до эскалации прошли бы часы или дни - те же резервные каналы проверяют далеко не всегда. Мы знаем сразу и выезжаем сразу же. Если есть дополнительная информация кроме пингов (например, модель глючащей железки) – сразу комплектуем выездного инженера необходимыми частями. Дальше уже по месту.

Второй по частоте штатный вызов – выход из строя одного из терминалов у пользователей, например, DECT-телефона или Wi-Fi-роутера, раздававшего сеть на офис. Здесь мы узнаём о проблеме из мониторинга и почти сразу получаем звонок с деталями. Иногда звонок ничего нового не добавляет («Трубку беру, не звонит чего-то»), иногда очень полезен («Мы его со стола уронили»). Понятно, что во втором случае это явно не обрыв магистрали.

Оборудование в Москве берётся с наших складов горячего резерва, у нас их несколько типа таких:

У заказчиков обычно есть свои запасы часто выходящих из строя комплектующих – трубок для офиса, блоков питания, вентиляторов и так далее. Если же нужно доставить что-то, чего нет на месте, не в Москву, обычно мы едем сами (потому что монтаж). Например, у меня был ночной выезд в Нижний Тагил.

Если у заказчика есть свой мониторинг, они могут выгружать данные нам. Иногда мы разворачиваем Заббикс в режиме опроса, просто чтобы обеспечить прозрачность и контроль SLA (это тоже бесплатно для заказчика). Дополнительные датчики мы не ставим (это делают коллеги, которые обеспечивают непрерывность производственных процессов), но можем подключиться и к ним, если протоколы не экзотические.

В целом – инфраструктуру заказчика не трогаем, просто поддерживаем в том виде, как она есть.

По опыту скажу, что последние десять заказчиков перешли на внешнюю поддержку из-за того, что мы очень предсказуемые в плане затрат. Чёткое бюджетирование, хорошее управление кейсами, отчёт по каждой заявке, SLA, отчёты по оборудованию, профилактика. В идеале, конечно, мы для CIO заказчика типа уборщиц - приходим и делаем, всё чисто, не отвлекаем.

Ещё из того, что стоит отметить – в некоторых крупных компаниях настоящей проблемой становится инвентаризация, и нас иногда привлекают чисто для её проведения. Плюс мы же делаем хранение конфигураций и их менеджмент, что удобно при разных переездах-переподключениях. Но, опять же в сложных случаях это тоже не я – у нас есть специальная , которая перевозит дата-центры.

И ещё один важный момент: наш отдел не занимается критичной инфраструктурой. Всё внутри ЦОДов и всё банковско-страховое-операторское, плюс системы ядра розницы - это икс-команда. эти ребята.

Ещё практика

Многие современные устройства умеют отдавать много сервисной информации. Например, у сетевых принтеров очень легко мониторится уровень тонера в картридже. Можно заранее рассчитывать на срок замены, плюс иметь уведомление на 5-10% (если офис вдруг начал бешено печатать не в стандартном графике) - и сразу отправлять эникея до того, как у бухгалтерии начнётся паника.

Очень часто у нас забирают годовую статистику, которую делает та же система мониторинга плюс мы. В случае с Заббиксом это простое планирование затрат и понимание, что куда делось, а в случае с Инфосимом – ещё и материал для расчёта масштабирования на год, загрузки админов и всякие другие штуки. В статистике есть энергопотребление – в последний год почти все стали его спрашивать, видимо, чтобы раскидывать внутренние затраты между отделами.

Иногда получаются настоящие героические спасения. Такие ситуации – большая редкость, но из того, что помню за этот год – увидели около 3 ночи повышение температуры до 55 градусов на цискокоммутаторе. В далёкой серверной стояли «глупые» кондиционеры без мониторинга, и они вышли из строя. Мы сразу вызвали инженера по охлаждению (не нашего) и позвонили дежурному админу заказчика. Он потушил часть некритичных сервисов и удержал серверную от thermal shotdown до приезда парня с мобильным кондиционером, а потом и починки штатных.

У Поликомов и другого дорогого оборудования видеоконференцсвязи очень хорошо мониторится степень зарядки батарейки перед конференциями, тоже важно.

Мониторинг и диагностика нужны всем. Как правило, самим без опыта внедрять долго и сложно: системы бывают либо предельно простые и преднастроенные, либо с авианосец размером и с кучей типовых отчётов. Заточка напильником под компанию, придумывание реализации своих задач внутреннего ИТ-подразделения и вывод информации, которая им нужна больше всего, плюс поддержка всей истории в актуальном состоянии – путь грабель, если нет опыта внедрений. Работая с системами мониторинга, мы выбираем золотую середину между бесплатными и топовыми решениями – как правило, не самых популярных и «толстых» вендоров, но чётко решающих задачу.

Один раз было достаточно нетипичное обращение . Заказчику нужно было отдать роутер какому-то своему обособленному подразделению, причём точно по описи. В роутере был модуль с указанным серийником. Когда роутер начали готовить в дорогу, выяснилось, что этого модуля что-то нет. И найти его никто не может. Проблему слегка усугубляет тот факт, что инженер, который в прошлом году работал с этим филиалом, уже на пенсии, и уехал ко внукам в другой город. Связались с нами, попросили поискать. К счастью, железо давало отчёты по серийникам, а Инфосим делал инвентаризацию, поэтому мы за пару минут нашли этот модуль в инфраструктуре, описали топологию. Беглеца выследили по кабелю – он был в другой серверной в шкафу. История перемещения показала, что попал он туда после выхода из строя аналогичного модуля.


Кадр из художественного фильма про Хоттабыча, точно описывающий отношение населения к камерам

Много инцидентов с камерами. Однажды вышло из строя сразу 3 камеры. Обрыв кабеля на одном из участков. Монтажник задул новый в гофру, две камеры из трёх после ряда шаманств поднялись. А третья – нет. Более того, непонятно, где она вообще. Поднимаю видеопоток – последние кадры прямо перед падением – 4 утра, подходит трое мужиков в шарфах на лицах, что-то яркое внизу, камера сильно трясётся, падает.

Один раз настраивали камеру, которая должна фокусироваться на «зайцах», лазящих через забор. Пока ехали, думали, как будем обозначать точку, где должен появляться нарушитель. Не пригодилось – за те 15 минут, что мы там были, на объект проникло человек 30 только в нужной нам точке. Прямо настроечная таблица.

Как я уже приводил пример выше, история про снесённое здание – не анекдот. Один раз пропал линк до оборудования. На месте – нет павильона, где проходила медь. Павильон снесли, кабель пропал. Мы увидели, что маршрутизатор сдох. Монтажник приехал, начинает смотреть – а расстояние там между узлами пара километров. У него в наборе випнетовский тестер, стандарт - прозвонил от одного коннектора, прозвонил от другого – пошёл искать. Обычно проблему сразу видно.


Выслеживание кабеля: это оптика в гофре, продолжение истории с самого верха поста про морской узел. Здесь в итоге кроме совершенно удивительного монтажа обнаружилась проблема в том, что кабель отошёл от креплений. Тут лазят все, кому не лень, и расшатывают металлоконструкции. Примерно пятитысячный представитель пролетариата порвал оптику.

На одном объекте примерно раз в неделю отключались все узлы. Причём в одно и то же время. Мы довольно долго искали закономерность. Монтажник обнаружил следующее:

  • Проблема происходит всегда в смену одного и того же человека.
  • Отличается он от других тем, что носит очень тяжёлое пальто.
  • За вешалкой для одежды смонтирован автомат.
  • Крышку автомата кто-то унёс уже очень давно, ещё в доисторические времена.
  • Когда этот товарищ приходит на объект, он вешает одежду, и она отключает автоматы.
  • Он тут же включает их обратно.

На одном объекте в одно и то же время ночью выключалось оборудование. Выяснилось, что местные умельцы подключились к нашему питанию, вывели удлинитель и втыкают туда чайник и электроплитку. Когда эти устройства работают одновременно – выбивает весь павильон.

В одном из магазинов нашей необъятной родины постоянно с закрытием смены падала вся сеть. Монтажник увидел, что всё питание выведено на линию освещения. Как только в магазине отключают верхнее освещение зала (потребляющее очень много энергии), отключается и всё сетевое оборудование.

Был случай, что дворник лопатой перебил кабель.

Часто видим просто медь, лежащую с сорванной гофрой. Один раз между двумя цехами местные умельцы просто пробросили витую пару без всякой защиты.

Подальше от цивилизации сотрудники часто жалуются что их облучает «наше» оборудование. Коммутаторы на каких-нибудь далёких объектах могут быть в той же комнате, что и дежурный. Соответственно, нам пару раз попадались вредные бабки, которые всеми правдами и неправдами отключали их в начале смены.

Ещё в одном далёком городе на оптику вешали швабру . Отколупали гофру от стены, стали использовать её как крепёж для оборудования.


В данном случае с питанием явно есть проблемы.

Что умеет «большой» мониторинг

Ещё коротко расскажу о возможностях более серьёзных систем, на примере инсталляций Infosim, Там 4 решения, объединённых в одну платформу:
  • Управление отказами – контроль сбоев и корреляция событий.
  • Управление производительностью.
  • Инвентаризация и автоматическое обнаружение топологии.
  • Управление конфигурациями.
Что важно, Инфосим поддерживает сразу кучу оборудования «из коробки», то есть легко разбирает весь их внутренний обмен и получает доступ до всех их технических данных. Вот список вендоров:Cisco Systems, Huawei, HP, AVAYA, Redback Networks, F5 Networks, Extreme Networks, Juniper, Alcatel-Lucent, Fujitsu Technology Solutions, ZyXEL, 3Com, Ericsson, ZTE, ADVA Optical Networking, Nortel Networks, Nokia Siemens Networks, Allied Telesis, RADCOM, Allot Communications, Enterasys Networks, Telco Systems и др.

Отдельно про инвентаризацию. Модуль не просто показывает список, но ещё и сам строит топологию (по крайней мере, в 95% случаев пытается и попадает правильно). Он же позволяет иметь под рукой актуальную базу используемого и простаивающего ИТ оборудования (сетевое, серверное оборудование и т.д.), проводить вовремя замены устаревшего оборудования (EOS/EOL). В общем, удобно для большого бизнеса, но в малом многое из этого делается руками.

Примеры отчетов:

  • Отчеты в разрезе по типам ОС, прошивок, моделей и производителей оборудования;
  • Отчет по количеству свободных портов на каждом коммутаторе в сети/по выбранному производителю/по модели/по подсети и т.д.;
  • Отчет по вновь добавленным устройствам за заданным период;
  • Извещение о низком уровне тонера в принтерах;
  • Оценка пригодности канала связи для трафика чувствительного к задержкам и потерям, активный и пассивный методы;
  • Слежение за качеством и доступностью каналов связи (SLA) – генерация отчетов по качеству каналов связи с разбивкой по операторам связи;
  • Контроль сбоев и корреляция событиями функционал реализован за счет механизма Root-Cause Analysis (без необходимости написания правил администратором) и механизма Alarm States Machine. Root-Cause Analysis – это анализ первопричины аварии, основанный на следующих процедурах: 1. автоматическое обнаружение и локализация места сбоя; 2. сокращение количества аварийных событий до одного ключевого; 3. выявление последствий сбоя – на кого и на что повлиял сбой.
Ещё можно ставить на сеть вот такие штуки, которые сразу интегрируются в мониторинг:


Stablenet – Embedded Agent (SNEA) - компьютер размером чуть больше пачки сигарет.

Установка выполняется в банкоматы, или выделенные сегменты сети, где требуется проверка доступности. С их же помощью выполняются нагрузочные тестирования.

Облачный мониторинг

Ещё одна модель установки – SaaS в облаке. Делали для одного глобального заказчика (компания непрерывного цикла производства с географией распределения от Европы по Сибири).

Десятки объектов, в том числе – заводы и склады готовой продукции. Если у них падали каналы, а поддержка их осуществлялась из зарубежных офисов, то начинались задержки отгрузки, что по волне вело к убыткам дальше. Все работы делались по запросу и на расследование инцидента тратилось очень много времени.

Мы настроили мониторинг конкретно под них, потом допилили на ряде участков по особенностям именно их маршрутизации и железа. Это всё делалось в облаке КРОК. Сделали и сдали проект очень быстро.

Результат такой:

  • За счет частичной передачи управления сетевой инфраструктурой удалось оптимизировать как минимум на 50%. Недоступность оборудования, загрузка канала, превышение рекомендованных производителем параметров: всё это фиксируется в течение 5-10 минут, диагностируется и устраняется в течение часа.
  • При получении услуги из облака заказчик переводит капитальные расходы на развертывание своей системы сетевого мониторинга в операционные затраты на абонентскую плату за наш сервис, от которого в любой момент можно отказаться.

Преимущество облака в том, что в своем решении мы стоим как бы над их сетью и можем смотреть на все происходящее более объективно. В то время, если бы мы находились внури сети, мы видели бы картину только до узла отказа, и что за ним происходит, нам уже не было бы известно.

Пара картинок напоследок

Это - «утренний паззл»:

А это мы нашли клад:

В сундуке было вот что:

Ну и напоследок про самый весёлый выезд. Я как-то раз выезжал на объект розницы.

Там случилось следующее: сначала начало капать с крыши на фальшпотолок. Потом в фальшпотолке образовалось озеро, которое размыло и продавило одну из плиток. В результате всё это хлынуло на электрику. Дальше точно не знаю, что именно случилось, но где-то в соседнем помещении коротнуло, и начался пожар. Сначала сработали порошковые огнетушители, а потом приехали пожарные и залили всё пеной. Я приехал уже после них к разборку. Надо сказать, что циска 2960 врубилась после всего этого – я смог забрать конфиг и отправить устройство в ремонт.

Ещё один раз при сработке порошковой системы цисковский 3745 в одном банке был заполнен порошком почти полностью. Все интерфейсы были забиты – 2 по 48 портов. Надо было включать на месте. Вспомнили прошлый случай, решили попробовать снять конфиги «на горячую», вытрясли, почистили, как умели. Врубили – сначала устройство сказало «пфф» и чихнуло в нас большой струёй порошка. А потом заурчало и поднялось.

A robust ping monitoring tool for automatic checking connection to network hosts. By making regular pings it monitors network connections and notifies you about detected ups/downs. EMCO Ping Monitor also provides connection statistics info, including uptime, outages, failed pings, etc. You can easily extend functionality and configure EMCO Ping Monitor to execute custom commands or launch applications when connections are lost or restored.

What is EMCO Ping Monitor?

EMCO Ping Monitor can work in the 24/7 mode to track the states of the connection of one or multiple hosts. The application analyzes ping replies to detect connection outages and report connection statistics. It can automatically detect connection outages and show Windows Tray balloons, play sounds and send e-mail notifications. It can also generate reports and send them by e-mail or save as PDF or HTML files.

The program allows you to get information about the statuses of all the hosts, check the detailed statistics of a selected host and compare the performance of different hosts. The program stores the collected ping data the database, so you can check statistics for a selected time period. The available information includes min/max/avg ping time, ping deviation, list of connection outages, etc. This information can represented as grid data and charts.

EMCO Ping Monitor: How it Works?

EMCO Ping Monitor can be used to perform ping monitoring of just a few hosts or thousands of hosts. All hosts are monitored in real-time by dedicated working threads, so you can get real-time statistics and notifications connection state changes for every host. The program doesn"t have special requirements for hardware - you can monitor a few thousands of hosts on a typical modern PC.

The program uses pings to detect connection outages. If a few pings are failed in a raw - it reports an outage and notifies you about the problem. When connection is established and pings start to pass though - the program detects the end of outage and notifies you about that. You can customize outage and restore detection conditions and also notifications used by the program.

Compare Features and Select the Edition

The program is available in three editions with the different set of the features.
Compare Editions

The Free edition allows performing ping monitoring of up to 5 hosts. It does not allow any specific configuration for hosts. It runs as a Windows program, so monitoring is stopped if you close the UI or log off from Windows.

Free for personal and commercial usage

Professional Edition

The Professional edition allows monitoring of up to 250 hosts concurrently. Every host can have a custom configuration such as, notification of e-mail recipients or custom actions to be executed on connection lost and restore events. It runs as a Windows service, so monitoring continues even if you close the UI or log off from Windows.

Enterprise Edition

The Enterprise edition does not have limitations on the number of monitored hosts. On a modern PC, it is possible to monitor 2500+ hosts depending on the hardware configuration.

This edition includes all the available features and works as a client/server. The server works as a Windows service to ensure ping monitoring in the 24/7 mode. The client is a Windows program that can connect to a server running on a local PC or to a remote server through a LAN or the Internet. Multiple clients can connect to the same server and work concurrently.

This edition also includes web reports, that allow reviewing host monitoring statistics remotely in a web browser.

The Main Features of EMCO Ping Monitor

Multi-Host Ping Monitoring

The application can monitor multiple hosts concurrently. The Free edition of the application allows monitoring up to five hosts; the Professional edition doesn"t have any limitation for the number of monitored hosts. Monitoring of every host works independently from other hosts. You can monitor tens thousands of hosts from a modern PC.

Connection Outages Detection

The application sends ICMP ping echo requests and analyzes ping echo replies to monitor the connection state in the 24/7 mode. If the preset number of pings fail in a row, the application detects a connection outage and notifies you of the problem. The application tracks all outages, so you can see when a host was offline.

Connection Quality Analysis

When the application pings a monitored host, it saves and aggregates data about every ping, so you can get information about the minimum, maximum and average ping response times and the ping response deviation from the average for any reporting period. That allows you to estimate the quality of the network connection.

Flexible Notifications

If you would like to get notifications about Connection Lost, Connection Restored and other events detected by the application, you can configure the application to send e-mail notifications, play sounds and show Windows Tray balloons. The application can send a single notification of any type or repeat notifications multiple times.

Charts and Reports

All statistical information collected by the application can be represented visually by charts. You can see the ping and uptime statistics for a single host and compare the performance of multiple hosts on charts. The application can automatically generate reports in different formats on a regular basis to represent the host statistics.

Custom Actions

You can integrate the application with external software by executing external scripts or executable files when connections are lost or restored or in case of other events. For example, you can configure the application to run an external command-line tool to send SMS notifications about any changes in the host statuses.

По виду этой оптики, идущей по лесу к коллектору, можно заключить, что монтажник немного не соблюдал технологию. Крепление на фото также подсказывает, что он, наверное, моряк – узел-то морской.

Я из команды обеспечения физической работоспособности сети, проще говоря – техподдержки, отвечающей за то, чтобы лампочки на роутерах мигали, как надо. У нас «под крылом» разные крупные компании с инфраструктурой по всей стране. Внутрь их бизнеса не лезем, наша задача – чтобы работала сеть на физическом уровне и трафик проходил как надо.

Общий смысл работы – постоянный опрос узлов, снятие телеметрии, прогоны тестов (например, проверка настроек для поиска уязвимостей), обеспечение работоспособности, мониторинг приложений, трафика. Иногда инвентаризации и прочие извращения.

Расскажу про то, как это организовано и пару историй с выездов.

Как это обычно бывает

Наша команда сидит в офисе в Москве и снимает телеметрию сети. Собственно, это постоянные пинги узлов, а также получение данных мониторинга, если железки умные. Самая частая ситуация – пинг не проходит несколько раз подряд. В 80% случаев для розничной сети, например, это оказывается отключением электропитания, поэтому мы, видя такую картину, делаем следующее:
  1. Сначала звоним провайдеру по поводу аварий
  2. Потом – на электростанцию по поводу отключения
  3. Затем пытаемся установить связь с кем-нибудь на объекте (это не всегда удаётся, например, в 2 ночи)
  4. И, наконец, если за 5-10 минут вышеописанное не помогло, выезжаем сами или отправляем «аватара» - инженера-контрактника, сидящего где-нибудь в Ижевске или Владивостоке, если проблема там.
  5. С «аватаром» держим постоянную связь и «ведём» его по инфраструктуре - у нас датчики и сервис-мануалы, у него- плоскогубцы.
  6. Потом инженер присылает нам отчёт с фото по поводу того, что же это было.

Диалоги иногда такие:
- Так, связь пропадает между зданиями №4 и 5. Проверь роутер в пятом.
- Порядок, включён. Коннекта нет.
- Ок, иди по кабелю до четвёртого корпуса, там ещё узел.
-… Оппа!
- Что случилось?
- Тут 4-й дом снесли.
- Что??
- Прикладываю фото в отчёт. Дом в SLA восстановить не смогу.

Но чаще всё же получается найти обрыв и восстановить канал.

Примерно 60% выездов – «в молоко», потому что либо перебито питание (лопатой, прорабом, злоумышленниками), либо провайдер не знает про свой сбой, либо же кратковременная проблема устраняется до прибытия монтажника. Однако бывают ситуации, когда мы узнаём о проблеме раньше пользователей и раньше ИТ-служб заказчика, и сообщаем о решении до того, как они вообще поймут, что что-то случилось. Чаще всего такие ситуации случаются ночью, когда активность в компаниях заказчиков низкая.

Кому это надо и зачем

Как правило, у любой крупной компании есть свой IT-отдел, который чётко понимает специфику и задачи. В среднем и большом бизнесе работу «эникеев» и инженеров-сетевиков часто аутсорсят. Это просто выгодно и удобно. Например, один ритейлер имеет своих очень крутых айтишников, но занимаются они далеко не заменой роутеров и выслеживанием кабеля.

Что мы делаем

  1. Работаем по обращениям - тикеты и панические звонки.
  2. Делаем профилактику.
  3. Следим за рекомендациями вендоров железа, например, по срокам ТО.
  4. Подключаемся к мониторингу заказчика и снимаем с него данные, чтобы выезжать по инцидентам.
С мониторингом история часто заключается в том, что его нет. Или он был поднят 5 лет назад и не очень актуален. В самом простом случае, если мониторинга реально нет, предлагаем заказчику простой опенсорсный русский Zabbix бесплатно – и ему хорошо, и нам проще.

Первый способ - simple cheсks - это просто машина, которая пингует все узлы сети и следит за тем, чтобы они правильно отвечали. Такая реализация не требует вообще никаких изменений или минимальных косметических изменений в сети заказчика. Как правило, в очень простом случае мы ставим Заббикс прямо к себе в один из дата-центров (благо у нас их целых два в офисе КРОК на Волочаевской). В более сложном, например, если используется своя защищённая сеть – на одну из машин в ЦОДе заказчика:

Заббикс можно применять и сложнее, например, у него есть агенты, которые ставятся на *nix и win-узлы и показывают системный мониторинг, а также режим external check (с поддержкой протокола SNMP). Тем не менее, если бизнесу нужно что-то подобное, то либо у них уже есть свой мониторинг, либо выбирается более функционально-богатый вариант решения. Конечно, это уже не открытое ПО, и это стоит денег, но даже банальная точная инвентаризация уже примерно на треть отбивает затраты.

Это мы тоже делаем, но это история коллег. Вот они прислали пару скринов Инфосима:

Я же оператор «аватара», поэтому расскажу дальше о своей работе.

Как выглядит типовой инцидент

Перед нами экраны с вот таким общим статусом:

На этом объекте Zabbix собирает для нас довольно много информации: партийный номер, серийный номер, загрузка ЦПУ, описание устройства, доступность интерфейсов и т.п. Вся необходимая информация доступна из этого интерфейса.

Рядовой инцидент обычно начинается с того, что отваливается один из каналов, ведущих к, например, магазину заказчика (которых у него штук 200-300 по стране). Розница сейчас прошаренная, не то что лет семь назад, поэтому касса продолжит работу - каналов два.

Мы берёмся за телефоны и делаем минимум три звонка: провайдеру, электростанции и людям на месте («Да, мы тут арматуру грузили, чей-то кабель задели… А, ваш? Ну, хорошо, что нашли»).

Как правило, без мониторинга до эскалации прошли бы часы или дни - те же резервные каналы проверяют далеко не всегда. Мы знаем сразу и выезжаем сразу же. Если есть дополнительная информация кроме пингов (например, модель глючащей железки) – сразу комплектуем выездного инженера необходимыми частями. Дальше уже по месту.

Второй по частоте штатный вызов – выход из строя одного из терминалов у пользователей, например, DECT-телефона или Wi-Fi-роутера, раздававшего сеть на офис. Здесь мы узнаём о проблеме из мониторинга и почти сразу получаем звонок с деталями. Иногда звонок ничего нового не добавляет («Трубку беру, не звонит чего-то»), иногда очень полезен («Мы его со стола уронили»). Понятно, что во втором случае это явно не обрыв магистрали.

Оборудование в Москве берётся с наших складов горячего резерва, у нас их несколько типа таких:

У заказчиков обычно есть свои запасы часто выходящих из строя комплектующих – трубок для офиса, блоков питания, вентиляторов и так далее. Если же нужно доставить что-то, чего нет на месте, не в Москву, обычно мы едем сами (потому что монтаж). Например, у меня был ночной выезд в Нижний Тагил.

Если у заказчика есть свой мониторинг, они могут выгружать данные нам. Иногда мы разворачиваем Заббикс в режиме опроса, просто чтобы обеспечить прозрачность и контроль SLA (это тоже бесплатно для заказчика). Дополнительные датчики мы не ставим (это делают коллеги, которые обеспечивают непрерывность производственных процессов), но можем подключиться и к ним, если протоколы не экзотические.

В целом – инфраструктуру заказчика не трогаем, просто поддерживаем в том виде, как она есть.

По опыту скажу, что последние десять заказчиков перешли на внешнюю поддержку из-за того, что мы очень предсказуемые в плане затрат. Чёткое бюджетирование, хорошее управление кейсами, отчёт по каждой заявке, SLA, отчёты по оборудованию, профилактика. В идеале, конечно, мы для CIO заказчика типа уборщиц - приходим и делаем, всё чисто, не отвлекаем.

Ещё из того, что стоит отметить – в некоторых крупных компаниях настоящей проблемой становится инвентаризация, и нас иногда привлекают чисто для её проведения. Плюс мы же делаем хранение конфигураций и их менеджмент, что удобно при разных переездах-переподключениях. Но, опять же в сложных случаях это тоже не я – у нас есть специальная команда , которая перевозит дата-центры.

И ещё один важный момент: наш отдел не занимается критичной инфраструктурой. Всё внутри ЦОДов и всё банковско-страховое-операторское, плюс системы ядра розницы - это икс-команда. Вот эти ребята.

Ещё практика

Многие современные устройства умеют отдавать много сервисной информации. Например, у сетевых принтеров очень легко мониторится уровень тонера в картридже. Можно заранее рассчитывать на срок замены, плюс иметь уведомление на 5-10% (если офис вдруг начал бешено печатать не в стандартном графике) - и сразу отправлять эникея до того, как у бухгалтерии начнётся паника.

Очень часто у нас забирают годовую статистику, которую делает та же система мониторинга плюс мы. В случае с Заббиксом это простое планирование затрат и понимание, что куда делось, а в случае с Инфосимом – ещё и материал для расчёта масштабирования на год, загрузки админов и всякие другие штуки. В статистике есть энергопотребление – в последний год почти все стали его спрашивать, видимо, чтобы раскидывать внутренние затраты между отделами.

Иногда получаются настоящие героические спасения. Такие ситуации – большая редкость, но из того, что помню за этот год – увидели около 3 ночи повышение температуры до 55 градусов на цискокоммутаторе. В далёкой серверной стояли «глупые» кондиционеры без мониторинга, и они вышли из строя. Мы сразу вызвали инженера по охлаждению (не нашего) и позвонили дежурному админу заказчика. Он потушил часть некритичных сервисов и удержал серверную от thermal shotdown до приезда парня с мобильным кондиционером, а потом и починки штатных.

У Поликомов и другого дорогого оборудования видеоконференцсвязи очень хорошо мониторится степень зарядки батарейки перед конференциями, тоже важно.

Мониторинг и диагностика нужны всем. Как правило, самим без опыта внедрять долго и сложно: системы бывают либо предельно простые и преднастроенные, либо с авианосец размером и с кучей типовых отчётов. Заточка напильником под компанию, придумывание реализации своих задач внутреннего ИТ-подразделения и вывод информации, которая им нужна больше всего, плюс поддержка всей истории в актуальном состоянии – путь грабель, если нет опыта внедрений. Работая с системами мониторинга, мы выбираем золотую середину между бесплатными и топовыми решениями – как правило, не самых популярных и «толстых» вендоров, но чётко решающих задачу.

Один раз было достаточно нетипичное обращение . Заказчику нужно было отдать роутер какому-то своему обособленному подразделению, причём точно по описи. В роутере был модуль с указанным серийником. Когда роутер начали готовить в дорогу, выяснилось, что этого модуля что-то нет. И найти его никто не может. Проблему слегка усугубляет тот факт, что инженер, который в прошлом году работал с этим филиалом, уже на пенсии, и уехал ко внукам в другой город. Связались с нами, попросили поискать. К счастью, железо давало отчёты по серийникам, а Инфосим делал инвентаризацию, поэтому мы за пару минут нашли этот модуль в инфраструктуре, описали топологию. Беглеца выследили по кабелю – он был в другой серверной в шкафу. История перемещения показала, что попал он туда после выхода из строя аналогичного модуля.


Кадр из художественного фильма про Хоттабыча, точно описывающий отношение населения к камерам

Много инцидентов с камерами. Однажды вышло из строя сразу 3 камеры. Обрыв кабеля на одном из участков. Монтажник задул новый в гофру, две камеры из трёх после ряда шаманств поднялись. А третья – нет. Более того, непонятно, где она вообще. Поднимаю видеопоток – последние кадры прямо перед падением – 4 утра, подходит трое мужиков в шарфах на лицах, что-то яркое внизу, камера сильно трясётся, падает.

Один раз настраивали камеру, которая должна фокусироваться на «зайцах», лазящих через забор. Пока ехали, думали, как будем обозначать точку, где должен появляться нарушитель. Не пригодилось – за те 15 минут, что мы там были, на объект проникло человек 30 только в нужной нам точке. Прямо настроечная таблица.

Как я уже приводил пример выше, история про снесённое здание – не анекдот. Один раз пропал линк до оборудования. На месте – нет павильона, где проходила медь. Павильон снесли, кабель пропал. Мы увидели, что маршрутизатор сдох. Монтажник приехал, начинает смотреть – а расстояние там между узлами пара километров. У него в наборе випнетовский тестер, стандарт - прозвонил от одного коннектора, прозвонил от другого – пошёл искать. Обычно проблему сразу видно.


Выслеживание кабеля: это оптика в гофре, продолжение истории с самого верха поста про морской узел. Здесь в итоге кроме совершенно удивительного монтажа обнаружилась проблема в том, что кабель отошёл от креплений. Тут лазят все, кому не лень, и расшатывают металлоконструкции. Примерно пятитысячный представитель пролетариата порвал оптику.

На одном объекте примерно раз в неделю отключались все узлы. Причём в одно и то же время. Мы довольно долго искали закономерность. Монтажник обнаружил следующее:

  • Проблема происходит всегда в смену одного и того же человека.
  • Отличается он от других тем, что носит очень тяжёлое пальто.
  • За вешалкой для одежды смонтирован автомат.
  • Крышку автомата кто-то унёс уже очень давно, ещё в доисторические времена.
  • Когда этот товарищ приходит на объект, он вешает одежду, и она отключает автоматы.
  • Он тут же включает их обратно.

На одном объекте в одно и то же время ночью выключалось оборудование. Выяснилось, что местные умельцы подключились к нашему питанию, вывели удлинитель и втыкают туда чайник и электроплитку. Когда эти устройства работают одновременно – выбивает весь павильон.

В одном из магазинов нашей необъятной родины постоянно с закрытием смены падала вся сеть. Монтажник увидел, что всё питание выведено на линию освещения. Как только в магазине отключают верхнее освещение зала (потребляющее очень много энергии), отключается и всё сетевое оборудование.

Был случай, что дворник лопатой перебил кабель.

Часто видим просто медь, лежащую с сорванной гофрой. Один раз между двумя цехами местные умельцы просто пробросили витую пару без всякой защиты.

Подальше от цивилизации сотрудники часто жалуются что их облучает «наше» оборудование. Коммутаторы на каких-нибудь далёких объектах могут быть в той же комнате, что и дежурный. Соответственно, нам пару раз попадались вредные бабки, которые всеми правдами и неправдами отключали их в начале смены.

Ещё в одном далёком городе на оптику вешали швабру . Отколупали гофру от стены, стали использовать её как крепёж для оборудования.


В данном случае с питанием явно есть проблемы.

Что умеет «большой» мониторинг

Ещё коротко расскажу о возможностях более серьёзных систем, на примере инсталляций Infosim, Там 4 решения, объединённых в одну платформу:
  • Управление отказами – контроль сбоев и корреляция событий.
  • Управление производительностью.
  • Инвентаризация и автоматическое обнаружение топологии.
  • Управление конфигурациями.
Что важно, Инфосим поддерживает сразу кучу оборудования «из коробки», то есть легко разбирает весь их внутренний обмен и получает доступ до всех их технических данных. Вот список вендоров:Cisco Systems, Huawei, HP, AVAYA, Redback Networks, F5 Networks, Extreme Networks, Juniper, Alcatel-Lucent, Fujitsu Technology Solutions, ZyXEL, 3Com, Ericsson, ZTE, ADVA Optical Networking, Nortel Networks, Nokia Siemens Networks, Allied Telesis, RADCOM, Allot Communications, Enterasys Networks, Telco Systems и др.

Отдельно про инвентаризацию. Модуль не просто показывает список, но ещё и сам строит топологию (по крайней мере, в 95% случаев пытается и попадает правильно). Он же позволяет иметь под рукой актуальную базу используемого и простаивающего ИТ оборудования (сетевое, серверное оборудование и т.д.), проводить вовремя замены устаревшего оборудования (EOS/EOL). В общем, удобно для большого бизнеса, но в малом многое из этого делается руками.

Примеры отчетов:

  • Отчеты в разрезе по типам ОС, прошивок, моделей и производителей оборудования;
  • Отчет по количеству свободных портов на каждом коммутаторе в сети/по выбранному производителю/по модели/по подсети и т.д.;
  • Отчет по вновь добавленным устройствам за заданным период;
  • Извещение о низком уровне тонера в принтерах;
  • Оценка пригодности канала связи для трафика чувствительного к задержкам и потерям, активный и пассивный методы;
  • Слежение за качеством и доступностью каналов связи (SLA) – генерация отчетов по качеству каналов связи с разбивкой по операторам связи;
  • Контроль сбоев и корреляция событиями функционал реализован за счет механизма Root-Cause Analysis (без необходимости написания правил администратором) и механизма Alarm States Machine. Root-Cause Analysis – это анализ первопричины аварии, основанный на следующих процедурах: 1. автоматическое обнаружение и локализация места сбоя; 2. сокращение количества аварийных событий до одного ключевого; 3. выявление последствий сбоя – на кого и на что повлиял сбой.
Ещё можно ставить на сеть вот такие штуки, которые сразу интегрируются в мониторинг:


Stablenet – Embedded Agent (SNEA) - компьютер размером чуть больше пачки сигарет.

Установка выполняется в банкоматы, или выделенные сегменты сети, где требуется проверка доступности. С их же помощью выполняются нагрузочные тестирования.

Облачный мониторинг

Ещё одна модель установки – SaaS в облаке. Делали для одного глобального заказчика (компания непрерывного цикла производства с географией распределения от Европы по Сибири).

Десятки объектов, в том числе – заводы и склады готовой продукции. Если у них падали каналы, а поддержка их осуществлялась из зарубежных офисов, то начинались задержки отгрузки, что по волне вело к убыткам дальше. Все работы делались по запросу и на расследование инцидента тратилось очень много времени.

Мы настроили мониторинг конкретно под них, потом допилили на ряде участков по особенностям именно их маршрутизации и железа. Это всё делалось в облаке КРОК. Сделали и сдали проект очень быстро.

Результат такой:

  • За счет частичной передачи управления сетевой инфраструктурой удалось оптимизировать как минимум на 50%. Недоступность оборудования, загрузка канала, превышение рекомендованных производителем параметров: всё это фиксируется в течение 5-10 минут, диагностируется и устраняется в течение часа.
  • При получении услуги из облака заказчик переводит капитальные расходы на развертывание своей системы сетевого мониторинга в операционные затраты на абонентскую плату за наш сервис, от которого в любой момент можно отказаться.

Преимущество облака в том, что в своем решении мы стоим как бы над их сетью и можем смотреть на все происходящее более объективно. В то время, если бы мы находились внури сети, мы видели бы картину только до узла отказа, и что за ним происходит, нам уже не было бы известно.

Пара картинок напоследок

Это - «утренний паззл»:

А это мы нашли клад:

В сундуке было вот что:

Ну и напоследок про самый весёлый выезд. Я как-то раз выезжал на объект розницы.

Там случилось следующее: сначала начало капать с крыши на фальшпотолок. Потом в фальшпотолке образовалось озеро, которое размыло и продавило одну из плиток. В результате всё это хлынуло на электрику. Дальше точно не знаю, что именно случилось, но где-то в соседнем помещении коротнуло, и начался пожар. Сначала сработали порошковые огнетушители, а потом приехали пожарные и залили всё пеной. Я приехал уже после них к разборку. Надо сказать, что циска 2960 врубилась после всего этого – я смог забрать конфиг и отправить устройство в ремонт.

Ещё один раз при сработке порошковой системы цисковский 3745 в одном банке был заполнен порошком почти полностью. Все интерфейсы были забиты – 2 по 48 портов. Надо было включать на месте. Вспомнили прошлый случай, решили попробовать снять конфиги «на горячую», вытрясли, почистили, как умели. Врубили – сначала устройство сказало «пфф» и чихнуло в нас большой струёй порошка. А потом заурчало и поднялось.

EMCO Ping Monitor. Бесплатный помощник админа

Если в инфраструктуре есть до 5 хостов виртуализации, то можно использовать бесплатную версию.

Ping Monitor: Network Connection State Monitoring Tool (бесплатно для 5 хостов)

Инфо:
Надежный инструмент мониторинга для автоматической проверки соединения c сетью хостов посредством выполнения команды ping .

Wiki:
Ping - утилита для проверки соединений в сетях на основе TCP/IP, а также обиходное наименование самого запроса.
Утилита отправляет запросы (ICMP Echo-Request) протокола ICMP указанному узлу сети и фиксирует поступающие ответы (ICMP Echo-Reply). Время между отправкой запроса и получением ответа (RTT, от англ. Round Trip Time) позволяет определять двусторонние задержки (RTT) по маршруту и частоту потери пакетов, то есть косвенно определять загруженность на каналах передачи данных и промежуточных устройствах.
Программа ping является одним из основных диагностических средств в сетях TCP/IP и входит в поставку всех современных сетевых операционных систем.

https://ru.wikipedia.org/wiki/Ping

Программа отправляя регулярные ICMP-запросы контролирует сетевые соединения и уведомляет вас об обнаруженном восстановлении / падении каналов. EMCO Ping Monitor предоставляет данные статистики соединений, в том числе время бесперебойной работы, перерывы в работе, неудачи пинга и т.д.


Эхо-запрос

Эхо-запрос (ping) - это диагностический инструмент, используемый, чтобы выяснить, доступен ли определенный узел в IP-сети. Эхо-запрос выполняется по протоколу ICMP (Internet Control Message Protocol). Этот протокол используется для отправки эхо-запроса на проверяемый узел. На узле должен быть настроен прием пакетов ICMP.

Проверка
по эхо-запросу

PRTG — инструмент проверки по эхо-запросам и сетевого мониторинга для Windows. Он совместим со всеми основными системами Windows, в том числе Windows Server 2012 R2 и Windows 10.

PRTG представляет собой мощное средство для всей сети. Для серверов, маршрутизаторов, коммутаторов, времени бесперебойной работы и облачных подключений PRTG отслеживает все характеристики, а вы можете избавиться от административных забот. Сенсор эхо-запросов, а также сенсоры SNMP , NetFlow и анализа пакетов используются для сбора подробных сведений о доступности и рабочей нагрузке сети.

PRTG располагает настраиваемой встроенной системой тревоги, которая быстро уведомляет о неполадках. Сенсор эхо-запросов настраивается как основной сенсор для сетевых устройств. В случае отказа этого сенсора все другие сенсоры на устройстве переводятся в спящий режим. Это значит, что вместо потока тревожных сообщений вы получите всего одно уведомление.

В любое время по вашему желанию на панель мониторинга PRTG можно вывести краткий обзор. Вы сразу же увидите, все ли в порядке. Панель мониторинга настраивается в соответствии с вашими конкретными нуждами. Вдали от рабочего места, например при работе в серверном помещении , доступ к PRTG возможен через приложение смартфона , и вы никогда не пропустите ни одного события.

Начальный мониторинг настраивается сразу же во время установки. Возможным это становится благодаря функции автоматического обнаружения: PRTG отправляет эхо-запросы на ваши частные IP-адреса и автоматически создает сенсоры для доступных устройств. Открыв PRTG в первый раз, вы сразу же сможете проверить доступность вашей сети.

У программы PRTG прозрачная модель лицензирования. Вы можете бесплатно протестировать PRTG. Сенсор эхо-запросов и функция тревоги также входят в бесплатную версию и имеют неограниченный срок использования. Если вашей компании или сети потребуются более широкие возможности, обновить лицензию не составит труда.

Снимки экрана
Краткое введение в PRTG: мониторинг пингов

Ваши сенсоры эхо-запросов как на ладони
- даже в пути

Программа PRTG устанавливается за несколько минут и совместима с большинством мобильных устройств.

PRTG контролирует для вас работу этих и многих других производителей и приложений

Три сенсора PRTG для мониторинга эхо-запросов

Сенсор
эхо-запросов


из облака

Сенсор эхо-запросов из облака использует облако PRTG для измерения времени выполнения эхо-запросов к вашей сети из различных мест в мире. Этот сенсор позволяет увидеть доступность вашей сети в Азии, Европе и Америке. В частности, этот показатель очень важен для международных компаний. .

Приобретая программу PRTG, вы получите всеобъемлющую бесплатную поддержку. Наша задача - решать ваши проблемы как можно быстрее! Специально для этого наряду с прочими материалами мы подготовили обучающие видеоматериалы и исчерпывающее руководство. Мы стараемся отвечать на все заявки в службу поддержки в течение 24 часов (по рабочим дням). Вы найдете ответы на многие вопросы в нашей базе знаний . Например, поисковый запрос «мониторинг эхо-запросов» выдает 700 результатов. Несколько примеров:

«Мне нужен сенсор эхо-запросов, который будет собирать информацию только о доступности устройства, без изменения его статуса. Возможно ли это?»

«Могу ли я создать инверсный сенсор эхо-запроса?»


«С PRTG нам работается гораздо спокойнее, зная, что ведется непрерывный мониторинг наших систем».

Маркус Пуке, сетевой администратор, клиника «Шюхтерманн» (Германия)

  • Полная версия PRTG на 30 дней
  • После 30 дней – бесплатная версия
  • Для расширенной версии – коммерческая лицензия

Программное обеспечение для мониторинга работы сети - версия 19.2.50.2842 (May 15th, 2019)

Хостинг

Доступна и облачная версия (PRTG в облаке)

Языки

Английский, немецкий, русский, испанский, французский, португальский, нидерландский, японский и упрощенный китайский

Цены

Бесплатно вплоть до 100 сенсоров (цены)

Комплексный мониторинг

Сетевые устройства, пропускная способность, серверы, приложения, виртуальные среды, удаленные системы, Интернет вещей и многое другое.

Поддерживаемые поставщики и приложения

Мониторинг сети и пингов с помощью PRTG: три практических примера

На программу PRTG полагаются 200 000 администраторов во всем мире. Эти администраторы могут работать в различных отраслях, но у них есть одна общая особенность - желание гарантировать и улучшить доступность и производительность своих сетей. Три примера использования:

Аэропорт Цюриха

Аэропорт Цюриха - крупнейший аэропорт Швейцарии, поэтому особенно важно, чтобы все его электронные системы функционировали бесперебойно. Чтобы это стало возможным, подразделение ИТ внедрило программу PRTG Network Monitor от компании Paessler AG. С помощью свыше 4500 сенсоров это средство гарантирует немедленное обнаружение проблем, которые сразу же устраняются специалистами подразделения ИТ. В прошлом подразделение ИТ использовало набор разнообразных программ для мониторинга. Но в конечном итоге руководство пришло к выводу, что это программное обеспечение непригодно для специализированного мониторинга эксплуатационным и техническим персоналом. Пример использования .

Университет «Баухауз», Веймар

ИТ-системы Университета «Баухауз» в Веймаре используют 5000 студентов и 400 сотрудников. В прошлом для мониторинга сети университета использовалось изолированное решение на основе Nagios. Система технически устарела и была не в состоянии удовлетворять потребности инфраструктуры ИТ учебного заведения. Модернизация инфраструктуры обошлась бы чрезвычайно дорого. Вместо этого университет обратился к новым решениям для мониторинга сети. Руководители подразделения ИТ хотели получить комплексный программный продукт, отличающийся удобством использования, простой установкой и отличными экономическими показателями. Поэтому они выбрали PRTG. Пример использования .

Коммунальное хозяйство города Франкенталь

Немногим более 200 сотрудников коммунального хозяйства города Франкенталя отвечают за поставку электричества, газа и воды частным потребителям и организациям. Организация со всеми своими зданиями также зависит от локально распределенной инфраструктуры, которая состоит примерно из 80 серверов и 200 подключенных устройств. Руководители отдела ИТ предприятия коммунального хозяйства Франкенталя искали доступное ПО, отвечающее их конкретным нуждам. Сначала специалисты ИТ установили бесплатную пробную версию PRTG. В настоящее время в коммунальном хозяйстве Франкенталя используются около 1500 сенсоров, контролирующих, помимо прочего, общественные плавательные бассейны. Пример использования .

Практический совет. Скажите, Грег, есть ли у вас какие-нибудь рекомендации по мониторингу эхо-запросов (пингов)?

«Сенсоры эхо-запросов, вероятно, наиболее важные элементы сетевого мониторинга. Их необходимо правильно настроить, особенно с учетом ваших подключений. Если, например, вы отслеживаете работу виртуальной машины, то полезно разместить сенсор эхо-запроса в подключении к ее узлу. В случае сбоя узла вы не получите уведомление по каждой виртуальной машине, подключенной к нему. Кроме того, сенсоры эхо-запросов могут быть хорошими индикаторами правильной работы сетевого пути к узлу или Интернета, особенно в сценариях с высокой доступностью или отработкой отказов».

Грег Кампион, системный администратор компании PAESSLER AG

Публикации по теме