Кластер HA/DRS: когда падение сервера — не катастрофа
HA (High Availability) и DRS (Distributed Resource Scheduler) — два механизма, которые превращают набор физических серверов в единый отказоустойчивый организм. HA даёт автоматическое восстановление при отказе, DRS — балансировку нагрузки.
Зачем это нужно бизнесу
Любой физический сервер рано или поздно ломается: блок питания, материнская плата, контроллер, память. Если на этом сервере работали критичные сервисы — почта, ERP, базы 1С, домен-контроллер — компания встаёт. Час простоя для среднего бизнеса в Москве обходится десятки и сотни тысяч рублей: остановленные продажи, сорванные SLA, паника сотрудников, репутационные потери.
Кластер HA решает эту задачу принципиально: когда физический сервер падает, его виртуальные машины автоматически перезапускаются на других серверах кластера. Без участия инженера, без звонка ночью, без длинных пауз. Простой считается в минутах, а не часах. Это базовая страховка, которая стоит существенно меньше, чем последствия одного полноценного инцидента.
DRS добавляет вторую ценность: автоматическую балансировку. Если на одном узле виртуалки начали упираться в процессор, DRS живой миграцией переносит часть на менее загруженный узел. Администратор не следит вручную — система сама поддерживает равномерную загрузку. Это особенно важно, когда нагрузка меняется по сезонам, по дню недели, по релизам.
Как это работает
Кластер строится из 3 и более физических серверов (узлов), общего хранилища и сети. Минимум три узла нужны для корректной работы кворума: если останется только два, они не смогут договориться, кто из них «главный» при разрыве связи между ними.
Механизм HA:
- На каждом узле работает агент, который рассылает «я жив» соседям по сети.
- Если соседи перестали слышать узел дольше порогового времени (обычно 12–30 секунд), он считается упавшим.
- Менеджер кластера выбирает другие узлы, где запустить виртуалки упавшего хоста.
- Виртуалки стартуют так же, как после внезапной перезагрузки — поэтому HA не защищает от потери незакоммиченных данных, но защищает от длительного простоя.
Механизм DRS:
- Регулярно собирает статистику по загрузке CPU, памяти, ввода-вывода каждого узла.
- Считает, какие виртуалки можно мигрировать, чтобы выровнять нагрузку.
- Запускает живую миграцию — машины переезжают без видимого простоя.
- Может работать в режиме рекомендаций (для ручного подтверждения) или полностью автоматически.
Для корректной работы HA/DRS нужны:
- Общее хранилище — все узлы должны видеть одни и те же диски виртуалок (FC SAN, iSCSI, NFS, vSAN, Ceph).
- Отдельная сеть для heartbeat и vMotion/Live Migration — иначе пиковая нагрузка может вызвать ложные срабатывания.
- Достаточный резерв ресурсов — если один из 3 узлов упадёт, оставшимся должно хватить мощности.
- Antiaffinity-правила — например, два DC домена или две реплики БД не должны оказаться на одном физическом узле.
Когда нужно компании
- В виртуализации работают критичные сервисы: почта, ERP, биллинг, телефония, домен.
- Час простоя стоит дороже, чем дополнительный физический сервер.
- Есть требования регулятора по доступности — ФЗ-187 (КИИ), отраслевые стандарты.
- Команда не готова реагировать на сбои ночью и в выходные вручную.
- Планируется регулярное обслуживание серверов без остановки сервисов (плановые миграции через vMotion).
- Нагрузка нестабильна — нужна автоматическая балансировка.
Для разработки и некритичных сервисов кластер с HA избыточен — достаточно простой виртуализации с регулярными бэкапами.
Что включает наша услуга
- Проектирование архитектуры кластера: количество узлов, схема сети, СХД, расчёт резерва.
- Установка и настройка кластера на VMware vSphere, Hyper-V Failover Cluster или Proxmox VE.
- Конфигурация HA, DRS, antiaffinity-правил, политик рестарта.
- Тестирование сценариев отказа: имитация падения узла, разрыва сети, потери СХД.
- Интеграция с мониторингом NOC 24/7 — алерты на любой инцидент в кластере.
- Регламентное сопровождение, обновления, расширение, разбор инцидентов.
Связанные термины
Получить расчёт
Зайдите в калькулятор, отметьте чекбокс «Кластер HA/DRS» и получите ориентир по проекту отказоустойчивой виртуализации. Финальная смета — после обследования и согласования архитектуры.
Хотите оценить стоимость под свою инфраструктуру?
Откройте калькулятор, отметьте нужные услуги — получите ориентир за минуту. Финальная смета после обследования (±15%).
Открыть калькулятор Получить КП