Лучший способ хранить большой набор URL для гусеничных - PullRequest
2 голосов
/ 26 июля 2010

Я пишу пользовательский сканер, и мне нужно знать, сканируется ли определенный URL или нет, поэтому я не буду добавлять один и тот же URL дважды Прямо сейчас я использую mysql для хранения хеш-значений каждого URL. Но мне интересно, может ли это стать очень медленным, если у меня большой набор URL-адресов, скажем, сотни миллионов.

Есть ли другие способы хранения URL-адресов? Люди используют люцен для этого? Или есть конкретная структура данных для этого?

Ответы [ 3 ]

2 голосов
/ 26 июля 2010

Вы не указали свою платформу разработки, но есть действительно хорошая структура данных под названием Trie (http://en.wikipedia.org/wiki/Trie), есть много реализаций на java, c ++, c # ...

0 голосов
/ 05 июля 2011

уже поздно! но вы можете использовать ram db system например memcached

0 голосов
/ 26 июля 2010

вы можете попробовать BerkeleyDb

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...