Должен ли я заботиться о хранении дубликатов файлов в MongoDB - PullRequest
0 голосов
/ 15 мая 2019

Мы переходим на MongoDB с GridFS, чтобы использовать его в качестве хранилища файлов.

В базе данных будет храниться несколько файлов, которые на самом деле будут иметь одинаковое содержимое (но, возможно, разные имена файлов).

В предыдущей реализации мы использовали SQL Server с FILESTREAM и реализовали собственный механизм хранения только уникального содержимого файла на диске, основная цель которого - сэкономить место на диске.

Я читаючто механизм хранения по умолчанию в MongoDB (WiredTiger) использует сжатие , поэтому я испытываю желание предположить, что с точки зрения дискового пространства не будет иметь значения, сохраняем ли мы дублирующиеся файлы или нет.Я прав?

ОБНОВЛЕНИЕ :

Протестировав несколько методов сжатия, я начинаю находить сжатие неэффективным при обработке дублирующихся файлов (например: сжатие "Файл A")и «Копия файла A», результат намного больше, чем сжатие одного «файла A»).

Функция, которую я ищу, может называться «дедупликация», и, похоже, она была уже запрошено в MongoDB и отклонено: (

...