Лучшее решение для хранения просканированных сайтов в базе данных - PullRequest
0 голосов
/ 27 декабря 2011

Я хочу хранить в db просканированных сайтах (html code).Сайтов будет миллионы.Я буду искать на этих сайтах специальные строки.

Теперь я использую PostrgreSQL, но у меня есть сомнения, правильна ли реляционная база данных.Может быть, какие-то подвиги NoSQL?

Какую душу вы рекомендуете?

Ответы [ 2 ]

1 голос
/ 27 декабря 2011

Я использовал Apache Nutch для той же цели (сканирование, хранение и поиск миллионов сайтов) с успехом.Он основан на Lucene и масштабируется (благодаря Hadoop).

Работает из коробки.

http://nutch.apache.org/

http://lucene.apache.org/

0 голосов
/ 14 января 2012

После того, как вы загрузили свою веб-страницу, вам нужно усечь дополнительную бесценную информацию с ваших веб-страниц (реклама, несвязанный текст, ...).Используя эту стратегию, вы уменьшите размер страницы, которую следует хранить в базе данных, и в результатах поиска появится более актуальная информация.

Я предлагаю вам создать программу, извлечь ценную информацию и сохранить ее в базе данных (если вы этого не сделаетенужна оригинальная страница) после этого вы можете создать указанную выше библиотеку lucene для поиска вашей информации

Если вам нужна более точная информация, вы можете проанализировать свою страницу и сохранить некоторые правила (направление содержимого, категория, ссылки на ресурсы внешних ресурсов)., ценная информация для всего текста скорость, ....), чтобы создать рейтинг для вашей страницы, которая является методы добычи текста.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...