Мы переходим на MongoDB с GridFS, чтобы использовать его в качестве хранилища файлов.
В базе данных будет храниться несколько файлов, которые на самом деле будут иметь одинаковое содержимое (но, возможно, разные имена файлов).
В предыдущей реализации мы использовали SQL Server с FILESTREAM и реализовали собственный механизм хранения только уникального содержимого файла на диске, основная цель которого - сэкономить место на диске.
Я читаючто механизм хранения по умолчанию в MongoDB (WiredTiger) использует сжатие , поэтому я испытываю желание предположить, что с точки зрения дискового пространства не будет иметь значения, сохраняем ли мы дублирующиеся файлы или нет.Я прав?
ОБНОВЛЕНИЕ :
Протестировав несколько методов сжатия, я начинаю находить сжатие неэффективным при обработке дублирующихся файлов (например: сжатие "Файл A")и «Копия файла A», результат намного больше, чем сжатие одного «файла A»).
Функция, которую я ищу, может называться «дедупликация», и, похоже, она была уже запрошено в MongoDB и отклонено: (