"Отпечатки" файлов? - PullRequest
       6

"Отпечатки" файлов?

1 голос
/ 15 августа 2010

Я работаю над решением, в котором мне нужно связать метаданные с файлами.Чтобы иметь возможность связать нужный файл с правильными метаданными, если файл перемещен, например, мне нужно иметь возможность создать своего рода «отпечаток пальца» для идентификации файла.

Очевидное решение было бы просточтобы вычислить хеш из содержимого файла, однако кажется, что вычисление хеша из файла whole заняло бы довольно много времени, поэтому я подумал, что может быть лучше просто вычислить контрольную сумму из фрагмента файла,как x байтов от начала начала

Другая проблема заключается в том, что некоторые файлы содержат заголовки метаданных, которые могут изменяться, например, mp3, поэтому метод снятия отпечатков должен быть в состоянии принять, какой это файли, следовательно, какой «кусок» лучше всего вычислить контрольную сумму на ...

Итак, мои вопросы: это хороший способ сделать это, кто-нибудь еще сделал что-то похожее?Как вы думаете, сколько байтов необходимо для вычисления контрольной суммы?

Спасибо всем за ваш вклад

1 Ответ

1 голос
/ 15 августа 2010

Это во многом связано с тем, какой именно тип файлов вы обрабатываете.

Я бы не отказался от хэширования всех файлов . Это настоящее узкое место в вашем приложении?

Если вам необходимо хэшировать только части файла, вы должны оценить, с какими файлами вы имеете дело, и какие части файла вы должны хэшировать, чтобы получить как можно меньше ложных совпадений.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...