Главная Вики Хранение

Дедупликация и сжатие данных: как уменьшить объём хранилища

Дедупликация и сжатие — две технологии, которые сокращают объём фактически хранимых данных. Дедупликация убирает повторы: одинаковые блоки информации сохраняются один раз, а вместо копий остаются ссылки. Сжатие упаковывает сами данные алгоритмами, убирая избыточность внутри блока. Вместе они позволяют разместить на той же ёмкости заметно больше полезной информации.

Зачем это нужно бизнесу

Дисковая ёмкость стоит денег, занимает место в стойке и требует электричества и охлаждения. Когда компания хранит бэкапы за несколько месяцев, образы виртуальных машин, файловые шары с десятками версий документов — большая часть этих данных дублируется. Сто похожих виртуальных машин содержат почти одинаковую операционную систему. Ежедневный бэкап отличается от вчерашнего на доли процента.

Дедупликация и сжатие позволяют не покупать новые полки СХД каждый раз, когда заканчивается место. Это прямая экономия на оборудовании и на услугах размещения. Особенно ощутимо это на системах резервного копирования, где коэффициент сокращения часто оказывается высоким именно из-за повторяющихся данных.

Как работает дедупликация

Система разбивает поток данных на блоки и считает для каждого хеш-сумму (короткий отпечаток). Если отпечаток уже встречался — блок не записывается повторно, сохраняется только ссылка на ранее записанный экземпляр.

Inline-дедупликация — повторы отсеиваются на лету, ещё до записи на диск. Экономит место сразу, но нагружает процессор массива.

Post-process — данные сначала пишутся как есть, а дедупликация запускается фоном позже. Меньше влияет на скорость записи, но требует временного запаса ёмкости.

Дедупликация бывает на уровне файла, блока фиксированного размера или блока переменной длины — последний обычно даёт лучший результат, но сложнее в реализации.

Как работает сжатие

Сжатие убирает избыточность внутри данных алгоритмами без потерь (например, семейства LZ). Текст, логи, базы данных сжимаются хорошо; уже сжатые файлы — архивы, видео, зашифрованные данные — почти не сжимаются. Современные СХД часто применяют сжатие и дедупликацию одновременно: сначала отсеивают повторяющиеся блоки, затем упаковывают оставшиеся.

Что важно учитывать

Как это связано с резервным копированием

Дедупликация — почти обязательная функция для систем хранения бэкапов. Когда вы держите много точек восстановления по правилу 3-2-1, дедупликация резко снижает реальный объём на дисках. Подробнее о том, что, куда и как часто резервировать, — в статье «Бэкап для бизнеса: что, куда и как часто».

Связанные термины

Связанные термины
Расчёт стоимости

Хотите оценить хранилище под свою инфраструктуру?

Откройте калькулятор, отметьте нужные услуги — получите ориентир за минуту. Финальная смета после обследования (±15%).

Открыть калькулятор Получить КП