У меня есть скрипт, который обрабатывает список URL-адресов.Сценарий может быть вызван в любое время с новым списком URL-адресов.Я хочу избежать обработки URL-адреса, который уже был обработан в любое время в прошлом.
На этом этапе все, что я хочу сопоставить, - это URL-адреса, которые представляют собой действительно длинные строки по отношению ко всем ранее обработанным URL-адресам, чтобыобеспечить уникальность.
Мой вопрос заключается в том, как SQL-запрос, сопоставляющий текстовый URL с базой данных MySQL, содержащей только URL-адреса (скажем, 40000 длинных текстовых URL-адресов), сравнивается с моей другой идеей хеширования URL-адресов и сохранения хэшейиспользуя, скажем, модуль полки Python?
shelf[hash(url)] = 1
Можно ли использовать полки для словаря с 40000 строковыми ключами?Как насчет 40000 числовых ключей с двоичными значениями?Любые ошибки с выбором полки над MySQL для этого простого требования?
Или, если я использую БД, есть ли огромное преимущество для хранения хешей URL в моей БД MySQL вместо строковых URL?