Какова хорошая стратегия для генерации уникальных хеш-ключей для очень большой коллекции изображений в Python? - PullRequest
1 голос
/ 25 января 2012

У меня есть список миллионов файлов, и я загружаю их в Amazon S3.Мне нужно создать уникальные ключи для каждого из изображений.Я бы предпочел не использовать md5, потому что он требует сканирования всего файла, что может быть медленным.Кроме того, могут быть дубликаты изображений, что разрешено в нашем приложении.Любое предложение для быстрой генерации почти гарантированно уникального ключа?Предпочтительно, 32-значный буквенно-цифровой (может быть с учетом регистра).Спасибо!

Ответы [ 3 ]

3 голосов
/ 25 января 2012

Я бы не назвал это хешем, поскольку это подразумевает создание уникального значения на основе содержимого файла.

Вместо этого UUID может быть тем, что вы ищете.

1 голос
/ 25 января 2012

Просто используйте хеш MD5 для фактического ФАЙЛА после того, как он был загружен и сохранен.

http://docs.python.org/library/md5.html

Примените хеш к таблице базы данных или, тем не менее, сохраните ее.

0 голосов
/ 25 января 2012

MD5 для datetime.now () (во время загрузки файла) будет в порядке, imho.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...