Обеспечивает ли Cloudera Mountable HDFS дедупликацию - PullRequest
0 голосов
/ 10 июня 2011

Рассмотрение работы кластера хранения на основе HDFS и простой метод использования монтируемой системы HDFS в выпуске Cloudera.

Первый вопрос, который я задаю, заключается в том, обеспечит ли это автоматическую дедупликацию данных?

Второй вопрос, который я задаю, будет ли выполнена дедупликация, когда все пользователи удаляют файлы, содержащие определенный дедуплицированный блок, затем он фактически удаляет блок из хранилища или только индекс / ссылку для этого пользователя?

Наконец, будет ли этот метод включать методы сжатия Rainstor?

Спасибо за ваш вклад

1 Ответ

1 голос
/ 10 июня 2011

Нет, HDFS не включает дедупликацию данных.

Архитектура в основном ориентирована на оптимальное использование последовательных шаблонов записи / чтения, поэтому она в значительной степени против дедупликации, поскольку каждый известный мне подход дедупликации вводит определенное количество случайных шаблонов ввода-вывода.

...