В русскоязычном IT термин NOC часто понимают неточно. Кто-то под этим имеет в виду программу-мониторинг (Zabbix, Prometheus), кто-то — сервис «мы вам пришлём SMS, если что». Реальный NOC — это процессная функция с регламентом, дежурными инженерами и измеримыми сроками реакции. Ниже — разбор, что именно входит в NOC, как он отличается от мониторинга, и какую стоимость он на самом деле сберегает.
Что такое NOC простым языком
NOC (Network Operations Center) — центр управления сетью. На практике это команда инженеров, которая круглосуточно отслеживает состояние IT-инфраструктуры заказчика и реагирует на инциденты по согласованному регламенту. Ключевые слова — «команда», «круглосуточно», «реагирует».
Мониторинг — это набор инструментов, которые собирают метрики: загрузка процессора, доступность сервисов, статус каналов, температура оборудования. Мониторинг фиксирует событие. На этом он заканчивается.
NOC начинается там, где мониторинг заканчивается. Алерт уходит дежурному инженеру, тот по чек-листу проверяет, ложный ли это срабатывание (ложными бывает до 30% алертов в неоптимизированной системе), классифицирует приоритет и запускает процедуру восстановления. Если автоматика сразу не помогает — инженер подключается удалённо, диагностирует и исправляет вручную.
Без NOC мониторинг превращается в исторический архив. После инцидента вы откроете график, увидите, что канал упал в 02:17, и поймёте, что 7 часов офис простаивал. NOC сжимает эти 7 часов до 5–15 минут.
Анатомия NOC: стек инструментов, роли, смены
Полнофункциональный NOC включает четыре слоя.
Уровень 1 — мониторинг. Базовые инструменты: Zabbix или PRTG для инфраструктуры, Grafana для визуализации, ELK или Loki для логов, специализированные SNMP-коллекторы для сетевого оборудования. На этом уровне определяются пороги и шаблоны алертов: что считать инцидентом, что — нормальным колебанием.
Уровень 2 — оповещение. Алерты направляются дежурному инженеру через несколько каналов одновременно: Telegram-бот, SMS, push на корпоративный мессенджер, голосовой звонок при критическом приоритете. Используются системы on-call routing (Grafana OnCall, OpsGenie-аналоги) с эскалацией на следующий уровень, если первый дежурный не подтвердил приём в течение 5 минут.
Уровень 3 — runbook и автоматика. Для типовых инцидентов написаны runbook'и — пошаговые инструкции, которые инженер выполняет, не тратя время на размышления. Часть действий автоматизирована: переключение на резервный канал, перезагрузка зависшего сервиса, миграция виртуальной машины на здоровый хост.
Уровень 4 — эскалация и связь с заказчиком. Если инцидент не решается на первом уровне за SLA-время, он эскалируется на профильного инженера (сетевой, серверный, прикладной). Параллельно ответственному лицу со стороны заказчика отправляется уведомление с описанием ситуации и планом действий.
Дежурство в нормальном NOC организовано по сменам 12 часов с перекрытием. На одну смену для офиса 100–500 сотрудников — один-два инженера L1, доступный по телефону инженер L2, дежурный менеджер сервиса. Ночные смены оплачиваются с надбавкой по ТК — это часть себестоимости услуги.
Сценарий «канал упал в 02:17» — два таймлайна
Пятница, 02:17. Основной канал провайдера лёг из-за обрыва оптики в коллекторе.
Без NOC: - 02:17 — канал лёг, никто не знает. - 09:00 — приходят первые сотрудники, не работает почта и CRM. - 09:05 — звонок IT-специалисту, тот пытается удалённо разобраться. - 09:30 — инженер на месте, диагностика. - 10:15 — звонок провайдеру, выяснение причины. - 11:40 — провайдер сообщает прогноз восстановления — 4 часа. - 12:00 — принимается решение временно поднять резервный мобильный модем (если есть). - 13:30 — частично восстановлены критичные сервисы. - 16:00 — провайдер восстановил канал.
Простой ключевых сервисов: 7–9 часов. Нагрузка на персонал, недополученная выручка, нарушенные обязательства перед клиентами — отдельной строкой.
С NOC: - 02:17 — канал лёг. - 02:18 — алерт получен дежурным инженером (одновременно по двум каналам). - 02:19 — инженер подтвердил приём, открыл runbook «BGP-сессия с провайдером не активна». - 02:21 — диагностика подтверждает: проблема на стороне провайдера, не у клиента. - 02:23 — переключение на резервный канал по протоколу BGP failover. Трафик пошёл. - 02:35 — отправлено уведомление ответственному лицу клиента (без побудки, в чат). - 09:00 — сотрудники приходят, работает всё. Утром — отчёт об инциденте по почте.
Простой: 6 минут. Стоимость инцидента в деньгах — близка к нулю.
Калькулятор простоя: формула стоимости часа
Базовая формула стоимости часа простоя:
Час простоя = (ФОТ_месяц / 168) × коэффициент_зависимости
Где: - ФОТ_месяц — суммарный фонд оплаты труда сотрудников, чья работа зависит от инфраструктуры. - 168 — норма рабочих часов в месяце. - Коэффициент зависимости — доля времени, в которое работа критически завязана на IT (1.0 = полностью, 0.3 = частично).
Пример. Офис 100 сотрудников, средняя зарплата 90 000 ₽ net, налоги и взносы накручивают до 123 000 ₽ полной стоимости. ФОТ месяца = 12,3 млн ₽. Коэффициент 0.8 для среднего офисного бизнеса.
Час простоя = (12 300 000 / 168) × 0.8 ≈ 58 600 ₽
Это только прямые потери на ФОТ. Не учтены: недополученная выручка (для онлайн-бизнеса считается отдельно по среднему обороту в час), штрафы по SLA перед клиентами, репутационные риски, трата времени менеджмента на «разруливание».
Для торговой компании с онлайн-каналом стоимость часа может быть в 2–5 раз выше за счёт упущенных продаж. Для производства с дискретным циклом — ещё выше, потому что простой инфраструктуры может остановить смену.
Регламент реакции NOC: 90 секунд → 5 минут → 15 минут → 4 часа
Время реакции зависит от приоритета инцидента. Обычно их три или четыре уровня.
| Приоритет | Что считается | Время первой реакции | Время восстановления |
|---|---|---|---|
| P1 (критический) | Полная недоступность ключевого сервиса | До 90 секунд | До 1 часа |
| P2 (высокий) | Частичная деградация, влияние на бизнес | До 5 минут | До 4 часов |
| P3 (средний) | Сбой не влияет на бизнес-процессы | До 15 минут | До 8 рабочих часов |
| P4 (низкий) | Информационный, плановый | До рабочего дня | По согласованию |
Сроки указаны в среднем по рынку для зрелых сервисов NOC. Конкретные значения фиксируются в SLA — детальный разбор того, что в нём должно быть, мы даём в материале «SLA в IT-аутсорсинге: что должно быть в договоре».
Что мониторим у клиента: 12 категорий метрик
Полный набор метрик, которые покрывает NOC при обслуживании среднего офиса:
| Категория | Метрики |
|---|---|
| Каналы связи | Доступность, потери пакетов, RTT, BGP-сессии |
| Сетевое оборудование | Загрузка ЦП, температура, статус портов, ошибки на интерфейсах |
| Серверы | ЦП, память, дисковое пространство, IOPS, состояние RAID |
| Виртуализация | Состояние хостов, кластеры, миграции, доступность хранилища |
| Базы данных | Время отклика, репликация, размер, блокировки |
| Веб-сервисы | HTTP-коды, время отклика, доступность по URL |
| Почтовые сервисы | Очереди, доставка, журналы отбраковки |
| Резервное копирование | Успешность, размер, время выполнения, проверка восстановления |
| Безопасность периметра | Состояние МСЭ, IDS/IPS, события блокировок |
| Учётные записи | Аномалии входа, заблокированные учётки, истечение паролей |
| Лицензии и сертификаты | Сроки действия, риски истечения |
| Электропитание | Состояние ИБП, заряд, авто-тесты |
Для каждой метрики настроены пороги нормальных значений и пороги алерта. Часть метрик собирается раз в минуту, часть — раз в 5 минут, часть — раз в час.
Когда внутренний NOC выгоднее внешнего
Логика та же, что для штатного сисадмина — подробно она разбирается в статье «Аутсорс IT-отдела или штатный сисадмин». Внутренний NOC оправдан при количестве сотрудников от 800–1000 и собственной критической инфраструктуре, требующей постоянного присутствия. Стоимость такой команды — от 1,5 млн ₽ в месяц (минимум 6 инженеров для покрытия 24/7 с учётом отпусков и больничных). Для средней компании этот бюджет в 5–10 раз превышает стоимость аутсорсного NOC.
FAQ
Чем NOC отличается от helpdesk? Helpdesk обрабатывает обращения пользователей: «не печатает принтер», «забыл пароль». NOC мониторит инфраструктуру и реагирует на технические инциденты до того, как пользователи о них узнают. Это разные процессы и разные инструменты.
Можно ли подключить NOC только на ночные часы? Технически да, но экономически часто невыгодно. Пакет 24/7 стоит лишь на 30–40% дороже, чем «ночь + выходные», потому что основная себестоимость — это содержание дежурной смены, а не фактическое количество минут работы.
NOC может управлять моей инфраструктурой или только смотрит? В нормальном договоре прописывается уровень полномочий: read-only, read-write по согласованным регламентам, полные административные права с журналированием. Большинство клиентов выбирают второй вариант — это позволяет быстро устранять инциденты без согласования каждого действия.
Что если ложных алертов слишком много? Это вопрос настройки. На старте обслуживания первые 2–4 недели идёт калибровка порогов: совместно с клиентом отсекаем шум, доводим долю ложных срабатываний до 5–10%. Если процент остаётся высоким — инструмент или конфигурация требуют пересмотра.
Можно ли получать копию всех алертов на свою сторону? Да. Стандартная практика — клиент получает критические алерты в Telegram-чат или почту параллельно с дежурным NOC. Это позволяет видеть процесс реакции в реальном времени.
Как проверить качество NOC до подписания? Запросить отчёт об инцидентах за последний месяц по любому действующему клиенту (с обезличенными данными). Качественный NOC выдаёт такой отчёт без задержек: дата и время инцидента, приоритет, время реакции, время восстановления, корневая причина, предпринятые действия.
Что входит в стоимость NOC, а что считается отдельно? В стоимость пакета входит мониторинг, дежурство, реагирование на инциденты в рамках SLA. Отдельно тарифицируются проектные работы (миграции, внедрения), выезды на объект сверх лимита, расходные материалы и оборудование.
Что в итоге
NOC 24/7 — это не опция для крупного бизнеса, а базовая страховка для любой компании, в которой работа сотрудников или продажи зависят от IT-инфраструктуры. Стоимость пакета NOC в составе обслуживания обычно меньше, чем стоимость одного крупного инцидента без него. Решение об уровне SLA и составе мониторинга принимается на этапе расчёта.
Посчитать стоимость · Связаться с нами
Получите расчёт IT-аутсорсинга для вашей инфраструктуры
Бесплатный аудит, письменный отчёт и смета — за 1 рабочий день. Аудит ни к чему не обязывает.