Кибер Авангард
Мониторинг 9 мин чтения

NOC 24/7 для бизнеса: что это, как работает и сколько стоит час простоя без него

Большой экран с цветными графиками в офисе подрядчика — это не NOC. Это дашборд. NOC — это люди, которые в три часа ночи получают алерт, видят упавший канал и переключают трафик на резервный раньше, чем вы откроете глаза. Разница между мониторингом и NOC становится понятной только после первого ночного инцидента, когда стоимость одного часа простоя превышает годовой бюджет на сам мониторинг.

В русскоязычном IT термин NOC часто понимают неточно. Кто-то под этим имеет в виду программу-мониторинг (Zabbix, Prometheus), кто-то — сервис «мы вам пришлём SMS, если что». Реальный NOC — это процессная функция с регламентом, дежурными инженерами и измеримыми сроками реакции. Ниже — разбор, что именно входит в NOC, как он отличается от мониторинга, и какую стоимость он на самом деле сберегает.

Что такое NOC простым языком

NOC (Network Operations Center) — центр управления сетью. На практике это команда инженеров, которая круглосуточно отслеживает состояние IT-инфраструктуры заказчика и реагирует на инциденты по согласованному регламенту. Ключевые слова — «команда», «круглосуточно», «реагирует».

Мониторинг — это набор инструментов, которые собирают метрики: загрузка процессора, доступность сервисов, статус каналов, температура оборудования. Мониторинг фиксирует событие. На этом он заканчивается.

NOC начинается там, где мониторинг заканчивается. Алерт уходит дежурному инженеру, тот по чек-листу проверяет, ложный ли это срабатывание (ложными бывает до 30% алертов в неоптимизированной системе), классифицирует приоритет и запускает процедуру восстановления. Если автоматика сразу не помогает — инженер подключается удалённо, диагностирует и исправляет вручную.

Без NOC мониторинг превращается в исторический архив. После инцидента вы откроете график, увидите, что канал упал в 02:17, и поймёте, что 7 часов офис простаивал. NOC сжимает эти 7 часов до 5–15 минут.

Анатомия NOC: стек инструментов, роли, смены

Полнофункциональный NOC включает четыре слоя.

Уровень 1 — мониторинг. Базовые инструменты: Zabbix или PRTG для инфраструктуры, Grafana для визуализации, ELK или Loki для логов, специализированные SNMP-коллекторы для сетевого оборудования. На этом уровне определяются пороги и шаблоны алертов: что считать инцидентом, что — нормальным колебанием.

Уровень 2 — оповещение. Алерты направляются дежурному инженеру через несколько каналов одновременно: Telegram-бот, SMS, push на корпоративный мессенджер, голосовой звонок при критическом приоритете. Используются системы on-call routing (Grafana OnCall, OpsGenie-аналоги) с эскалацией на следующий уровень, если первый дежурный не подтвердил приём в течение 5 минут.

Уровень 3 — runbook и автоматика. Для типовых инцидентов написаны runbook'и — пошаговые инструкции, которые инженер выполняет, не тратя время на размышления. Часть действий автоматизирована: переключение на резервный канал, перезагрузка зависшего сервиса, миграция виртуальной машины на здоровый хост.

Уровень 4 — эскалация и связь с заказчиком. Если инцидент не решается на первом уровне за SLA-время, он эскалируется на профильного инженера (сетевой, серверный, прикладной). Параллельно ответственному лицу со стороны заказчика отправляется уведомление с описанием ситуации и планом действий.

Дежурство в нормальном NOC организовано по сменам 12 часов с перекрытием. На одну смену для офиса 100–500 сотрудников — один-два инженера L1, доступный по телефону инженер L2, дежурный менеджер сервиса. Ночные смены оплачиваются с надбавкой по ТК — это часть себестоимости услуги.

Сценарий «канал упал в 02:17» — два таймлайна

Пятница, 02:17. Основной канал провайдера лёг из-за обрыва оптики в коллекторе.

Без NOC: - 02:17 — канал лёг, никто не знает. - 09:00 — приходят первые сотрудники, не работает почта и CRM. - 09:05 — звонок IT-специалисту, тот пытается удалённо разобраться. - 09:30 — инженер на месте, диагностика. - 10:15 — звонок провайдеру, выяснение причины. - 11:40 — провайдер сообщает прогноз восстановления — 4 часа. - 12:00 — принимается решение временно поднять резервный мобильный модем (если есть). - 13:30 — частично восстановлены критичные сервисы. - 16:00 — провайдер восстановил канал.

Простой ключевых сервисов: 7–9 часов. Нагрузка на персонал, недополученная выручка, нарушенные обязательства перед клиентами — отдельной строкой.

С NOC: - 02:17 — канал лёг. - 02:18 — алерт получен дежурным инженером (одновременно по двум каналам). - 02:19 — инженер подтвердил приём, открыл runbook «BGP-сессия с провайдером не активна». - 02:21 — диагностика подтверждает: проблема на стороне провайдера, не у клиента. - 02:23 — переключение на резервный канал по протоколу BGP failover. Трафик пошёл. - 02:35 — отправлено уведомление ответственному лицу клиента (без побудки, в чат). - 09:00 — сотрудники приходят, работает всё. Утром — отчёт об инциденте по почте.

Простой: 6 минут. Стоимость инцидента в деньгах — близка к нулю.

Калькулятор простоя: формула стоимости часа

Базовая формула стоимости часа простоя:

Час простоя = (ФОТ_месяц / 168) × коэффициент_зависимости

Где: - ФОТ_месяц — суммарный фонд оплаты труда сотрудников, чья работа зависит от инфраструктуры. - 168 — норма рабочих часов в месяце. - Коэффициент зависимости — доля времени, в которое работа критически завязана на IT (1.0 = полностью, 0.3 = частично).

Пример. Офис 100 сотрудников, средняя зарплата 90 000 ₽ net, налоги и взносы накручивают до 123 000 ₽ полной стоимости. ФОТ месяца = 12,3 млн ₽. Коэффициент 0.8 для среднего офисного бизнеса.

Час простоя = (12 300 000 / 168) × 0.8 ≈ 58 600 ₽

Это только прямые потери на ФОТ. Не учтены: недополученная выручка (для онлайн-бизнеса считается отдельно по среднему обороту в час), штрафы по SLA перед клиентами, репутационные риски, трата времени менеджмента на «разруливание».

Для торговой компании с онлайн-каналом стоимость часа может быть в 2–5 раз выше за счёт упущенных продаж. Для производства с дискретным циклом — ещё выше, потому что простой инфраструктуры может остановить смену.

Регламент реакции NOC: 90 секунд → 5 минут → 15 минут → 4 часа

Время реакции зависит от приоритета инцидента. Обычно их три или четыре уровня.

Приоритет Что считается Время первой реакции Время восстановления
P1 (критический) Полная недоступность ключевого сервиса До 90 секунд До 1 часа
P2 (высокий) Частичная деградация, влияние на бизнес До 5 минут До 4 часов
P3 (средний) Сбой не влияет на бизнес-процессы До 15 минут До 8 рабочих часов
P4 (низкий) Информационный, плановый До рабочего дня По согласованию

Сроки указаны в среднем по рынку для зрелых сервисов NOC. Конкретные значения фиксируются в SLA — детальный разбор того, что в нём должно быть, мы даём в материале «SLA в IT-аутсорсинге: что должно быть в договоре».

Что мониторим у клиента: 12 категорий метрик

Полный набор метрик, которые покрывает NOC при обслуживании среднего офиса:

Категория Метрики
Каналы связи Доступность, потери пакетов, RTT, BGP-сессии
Сетевое оборудование Загрузка ЦП, температура, статус портов, ошибки на интерфейсах
Серверы ЦП, память, дисковое пространство, IOPS, состояние RAID
Виртуализация Состояние хостов, кластеры, миграции, доступность хранилища
Базы данных Время отклика, репликация, размер, блокировки
Веб-сервисы HTTP-коды, время отклика, доступность по URL
Почтовые сервисы Очереди, доставка, журналы отбраковки
Резервное копирование Успешность, размер, время выполнения, проверка восстановления
Безопасность периметра Состояние МСЭ, IDS/IPS, события блокировок
Учётные записи Аномалии входа, заблокированные учётки, истечение паролей
Лицензии и сертификаты Сроки действия, риски истечения
Электропитание Состояние ИБП, заряд, авто-тесты

Для каждой метрики настроены пороги нормальных значений и пороги алерта. Часть метрик собирается раз в минуту, часть — раз в 5 минут, часть — раз в час.

Когда внутренний NOC выгоднее внешнего

Логика та же, что для штатного сисадмина — подробно она разбирается в статье «Аутсорс IT-отдела или штатный сисадмин». Внутренний NOC оправдан при количестве сотрудников от 800–1000 и собственной критической инфраструктуре, требующей постоянного присутствия. Стоимость такой команды — от 1,5 млн ₽ в месяц (минимум 6 инженеров для покрытия 24/7 с учётом отпусков и больничных). Для средней компании этот бюджет в 5–10 раз превышает стоимость аутсорсного NOC.

FAQ

Чем NOC отличается от helpdesk? Helpdesk обрабатывает обращения пользователей: «не печатает принтер», «забыл пароль». NOC мониторит инфраструктуру и реагирует на технические инциденты до того, как пользователи о них узнают. Это разные процессы и разные инструменты.

Можно ли подключить NOC только на ночные часы? Технически да, но экономически часто невыгодно. Пакет 24/7 стоит лишь на 30–40% дороже, чем «ночь + выходные», потому что основная себестоимость — это содержание дежурной смены, а не фактическое количество минут работы.

NOC может управлять моей инфраструктурой или только смотрит? В нормальном договоре прописывается уровень полномочий: read-only, read-write по согласованным регламентам, полные административные права с журналированием. Большинство клиентов выбирают второй вариант — это позволяет быстро устранять инциденты без согласования каждого действия.

Что если ложных алертов слишком много? Это вопрос настройки. На старте обслуживания первые 2–4 недели идёт калибровка порогов: совместно с клиентом отсекаем шум, доводим долю ложных срабатываний до 5–10%. Если процент остаётся высоким — инструмент или конфигурация требуют пересмотра.

Можно ли получать копию всех алертов на свою сторону? Да. Стандартная практика — клиент получает критические алерты в Telegram-чат или почту параллельно с дежурным NOC. Это позволяет видеть процесс реакции в реальном времени.

Как проверить качество NOC до подписания? Запросить отчёт об инцидентах за последний месяц по любому действующему клиенту (с обезличенными данными). Качественный NOC выдаёт такой отчёт без задержек: дата и время инцидента, приоритет, время реакции, время восстановления, корневая причина, предпринятые действия.

Что входит в стоимость NOC, а что считается отдельно? В стоимость пакета входит мониторинг, дежурство, реагирование на инциденты в рамках SLA. Отдельно тарифицируются проектные работы (миграции, внедрения), выезды на объект сверх лимита, расходные материалы и оборудование.

Что в итоге

NOC 24/7 — это не опция для крупного бизнеса, а базовая страховка для любой компании, в которой работа сотрудников или продажи зависят от IT-инфраструктуры. Стоимость пакета NOC в составе обслуживания обычно меньше, чем стоимость одного крупного инцидента без него. Решение об уровне SLA и составе мониторинга принимается на этапе расчёта.

Посчитать стоимость · Связаться с нами


/ Готовы посчитать?

Получите расчёт IT-аутсорсинга для вашей инфраструктуры

Бесплатный аудит, письменный отчёт и смета — за 1 рабочий день. Аудит ни к чему не обязывает.

Калькулятор стоимости Связаться с нами