Использование хеш-функций для хранения файлов? - PullRequest
7 голосов
/ 04 декабря 2008

Обычная техника для хранения большого количества файлов / больших двоичных объектов в файловой системе - использование хеш-функции для определения пути к файлу; например, хэш (идентификатор) -> "o238455789" -> o23 / 8455/789 (часто есть стратегия коллизии хэшей)

Есть ли у этого метода название («шаблон»), чтобы я мог найти его с помощью поиска ACM Digital Library или аналогичной онлайн-базы данных компьютерной литературы.

Существуют ли какие-либо книги / документы, в которых рассматривается проблема / решение?

PS Спасибо за полезные заметки, но ни одна из них не посвящена описанной выше методике.

Ответы [ 4 ]

3 голосов
/ 06 декабря 2008

Я думаю, это то, что Microsoft сделала в SQL Server 2008 с хранилищем FILESTREAM. Он позволяет хранить BLOB-данные внутри SQL Server, но позволяет получать доступ к файлам непосредственно с диска, что обеспечивает высокую производительность.

Microsoft выпустила технический документ по управлению неструктурированными данными , который может вас заинтересовать. Также есть статья MSDN, описывающая FILESTREAM , а также плюсы и минусы хранения файлов и в BLOB или в BLOB

.
2 голосов
/ 12 ноября 2010

Патент США 5742807 имеет дело с этим
http://www.freepatentsonline.com/5742807.html

Системы и способы управления множеством документов, хранимых в электронном виде, в открытом хранилище документов используют однонаправленную хэш-функцию для вычисления хэша для сохраненных документов в качестве индексационной ссылки. Индекс управления документами отображает атрибут исходного документа, хранящегося в репозитории, на хеш и документ. Индекс хеширования к местоположению отображает хеш с адресом местоположения документа в файловой системе хранилища. Атрибут указывает на хеш, который затем указывает на местоположение для связи атрибута с местоположением.

1 голос
/ 04 декабря 2008

@ Крис Кимптон

Это называется индексацией. Разделение или разбиение - это больше о том, как разбить файл.

0 голосов
/ 04 декабря 2008

Это звучит как шард , но я, вероятно, скучаю по тонкостям.

И я не вижу много статей об этом - несколько статей на highscalability.com

...