Главная › Вики › Виртуализация и серверы

Кластер HA/DRS: когда падение сервера — не катастрофа

HA (High Availability) и DRS (Distributed Resource Scheduler) — два механизма, которые превращают набор физических серверов в единый отказоустойчивый организм. HA даёт автоматическое восстановление при отказе, DRS — балансировку нагрузки.

Зачем это нужно бизнесу

Любой физический сервер рано или поздно ломается: блок питания, материнская плата, контроллер, память. Если на этом сервере работали критичные сервисы — почта, ERP, базы 1С, домен-контроллер — компания встаёт. Час простоя для среднего бизнеса в Москве обходится десятки и сотни тысяч рублей: остановленные продажи, сорванные SLA, паника сотрудников, репутационные потери.

Кластер HA решает эту задачу принципиально: когда физический сервер падает, его виртуальные машины автоматически перезапускаются на других серверах кластера. Без участия инженера, без звонка ночью, без длинных пауз. Простой считается в минутах, а не часах. Это базовая страховка, которая стоит существенно меньше, чем последствия одного полноценного инцидента.

DRS добавляет вторую ценность: автоматическую балансировку. Если на одном узле виртуалки начали упираться в процессор, DRS живой миграцией переносит часть на менее загруженный узел. Администратор не следит вручную — система сама поддерживает равномерную загрузку. Это особенно важно, когда нагрузка меняется по сезонам, по дню недели, по релизам.

Как это работает

Кластер строится из 3 и более физических серверов (узлов), общего хранилища и сети. Минимум три узла нужны для корректной работы кворума: если останется только два, они не смогут договориться, кто из них «главный» при разрыве связи между ними.

Механизм HA:

На каждом узле работает агент, который рассылает «я жив» соседям по сети.
Если соседи перестали слышать узел дольше порогового времени (обычно 12–30 секунд), он считается упавшим.
Менеджер кластера выбирает другие узлы, где запустить виртуалки упавшего хоста.
Виртуалки стартуют так же, как после внезапной перезагрузки — поэтому HA не защищает от потери незакоммиченных данных, но защищает от длительного простоя.

Механизм DRS:

Регулярно собирает статистику по загрузке CPU, памяти, ввода-вывода каждого узла.
Считает, какие виртуалки можно мигрировать, чтобы выровнять нагрузку.
Запускает живую миграцию — машины переезжают без видимого простоя.
Может работать в режиме рекомендаций (для ручного подтверждения) или полностью автоматически.

Для корректной работы HA/DRS нужны:

Общее хранилище — все узлы должны видеть одни и те же диски виртуалок (FC SAN, iSCSI, NFS, vSAN, Ceph).
Отдельная сеть для heartbeat и vMotion/Live Migration — иначе пиковая нагрузка может вызвать ложные срабатывания.
Достаточный резерв ресурсов — если один из 3 узлов упадёт, оставшимся должно хватить мощности.
Antiaffinity-правила — например, два DC домена или две реплики БД не должны оказаться на одном физическом узле.

Когда нужно компании

В виртуализации работают критичные сервисы: почта, ERP, биллинг, телефония, домен.
Час простоя стоит дороже, чем дополнительный физический сервер.
Есть требования регулятора по доступности — ФЗ-187 (КИИ), отраслевые стандарты.
Команда не готова реагировать на сбои ночью и в выходные вручную.
Планируется регулярное обслуживание серверов без остановки сервисов (плановые миграции через vMotion).
Нагрузка нестабильна — нужна автоматическая балансировка.

Для разработки и некритичных сервисов кластер с HA избыточен — достаточно простой виртуализации с регулярными бэкапами.

Что включает наша услуга

Проектирование архитектуры кластера: количество узлов, схема сети, СХД, расчёт резерва.
Установка и настройка кластера на VMware vSphere, Hyper-V Failover Cluster или Proxmox VE.
Конфигурация HA, DRS, antiaffinity-правил, политик рестарта.
Тестирование сценариев отказа: имитация падения узла, разрыва сети, потери СХД.
Интеграция с мониторингом NOC 24/7 — алерты на любой инцидент в кластере.
Регламентное сопровождение, обновления, расширение, разбор инцидентов.

Связанные термины

Получить расчёт

Зайдите в калькулятор, отметьте чекбокс «Кластер HA/DRS» и получите ориентир по проекту отказоустойчивой виртуализации. Финальная смета — после обследования и согласования архитектуры.

Связанные термины

Расчёт стоимости

Хотите оценить стоимость под свою инфраструктуру?

Откройте калькулятор, отметьте нужные услуги — получите ориентир за минуту. Финальная смета после обследования (±15%).

Открыть калькулятор Получить КП