Question

Я пишу пользовательский сканер, и мне нужно знать, сканируется ли определенный URL или нет, поэтому я не буду добавлять один и тот же URL дважды Прямо сейчас я использую mysql для хранения хеш-значений каждого URL. Но мне интересно, может ли это стать очень медленным, если у меня большой набор URL-адресов, скажем, сотни миллионов.

Есть ли другие способы хранения URL-адресов? Люди используют люцен для этого? Или есть конкретная структура данных для этого?

Dewfy · Answer 1 · 26 июля 2010

Вы не указали свою платформу разработки, но есть действительно хорошая структура данных под названием Trie (http://en.wikipedia.org/wiki/Trie), есть много реализаций на java, c ++, c # ...

ehsan · Answer 2 · 05 июля 2011

уже поздно! но вы можете использовать ram db system например memcached

Лучший способ хранить большой набор URL для гусеничных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лучший способ хранить большой набор URL для гусеничных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов