Дедупликация и сжатие данных: как уменьшить объём хранилища
Дедупликация и сжатие — две технологии, которые сокращают объём фактически хранимых данных. Дедупликация убирает повторы: одинаковые блоки информации сохраняются один раз, а вместо копий остаются ссылки. Сжатие упаковывает сами данные алгоритмами, убирая избыточность внутри блока. Вместе они позволяют разместить на той же ёмкости заметно больше полезной информации.
Зачем это нужно бизнесу
Дисковая ёмкость стоит денег, занимает место в стойке и требует электричества и охлаждения. Когда компания хранит бэкапы за несколько месяцев, образы виртуальных машин, файловые шары с десятками версий документов — большая часть этих данных дублируется. Сто похожих виртуальных машин содержат почти одинаковую операционную систему. Ежедневный бэкап отличается от вчерашнего на доли процента.
Дедупликация и сжатие позволяют не покупать новые полки СХД каждый раз, когда заканчивается место. Это прямая экономия на оборудовании и на услугах размещения. Особенно ощутимо это на системах резервного копирования, где коэффициент сокращения часто оказывается высоким именно из-за повторяющихся данных.
Как работает дедупликация
Система разбивает поток данных на блоки и считает для каждого хеш-сумму (короткий отпечаток). Если отпечаток уже встречался — блок не записывается повторно, сохраняется только ссылка на ранее записанный экземпляр.
Inline-дедупликация — повторы отсеиваются на лету, ещё до записи на диск. Экономит место сразу, но нагружает процессор массива.
Post-process — данные сначала пишутся как есть, а дедупликация запускается фоном позже. Меньше влияет на скорость записи, но требует временного запаса ёмкости.
Дедупликация бывает на уровне файла, блока фиксированного размера или блока переменной длины — последний обычно даёт лучший результат, но сложнее в реализации.
Как работает сжатие
Сжатие убирает избыточность внутри данных алгоритмами без потерь (например, семейства LZ). Текст, логи, базы данных сжимаются хорошо; уже сжатые файлы — архивы, видео, зашифрованные данные — почти не сжимаются. Современные СХД часто применяют сжатие и дедупликацию одновременно: сначала отсеивают повторяющиеся блоки, затем упаковывают оставшиеся.
Что важно учитывать
- Эффективность сильно зависит от типа данных — для бэкапов и однотипных ВМ выигрыш большой, для уникального медиаконтента почти нулевой
- Inline-режим повышает нагрузку на контроллер массива — нужен запас производительности
- Дедуплицированные данные сложнее «расцепить»: восстановление требует целостности всей цепочки ссылок
- Конкретные коэффициенты сокращения и поддерживаемые режимы зависят от модели СХД — это нужно уточнить по документации производителя
Как это связано с резервным копированием
Дедупликация — почти обязательная функция для систем хранения бэкапов. Когда вы держите много точек восстановления по правилу 3-2-1, дедупликация резко снижает реальный объём на дисках. Подробнее о том, что, куда и как часто резервировать, — в статье «Бэкап для бизнеса: что, куда и как часто».
Связанные термины
- Правило резервного копирования 3-2-1 — дедупликация делает хранение множества копий экономичным
- СХД — системы хранения данных — где дедупликация и сжатие реализуются на уровне массива
- NAS и SAN — сетевое и блочное хранилище — обе архитектуры поддерживают функции сокращения объёма
Хотите оценить хранилище под свою инфраструктуру?
Откройте калькулятор, отметьте нужные услуги — получите ориентир за минуту. Финальная смета после обследования (±15%).
Открыть калькулятор Получить КП