Я ищу, чтобы очистить много сайтов и искать на всех них, какую систему я должен использовать? - PullRequest
4 голосов
/ 01 июня 2011

Мне нужно очистить около 5000 сайтов, на которых есть информация, связанная с чем-то. Таким образом, данные будут как-то структурированы, например item_id, name, description, date .....

Дополнительная информация, найденная на странице, должна быть доступна для поиска.

Моя идея состоит в том, что мне не нужна реляционная база данных, мне не нужно делать логические запросы, мне просто нужно искать данные по заданному ключевому слову. Поэтому кто-то может просто набрать "green yellow", и он будет искать все элементы, в которых есть эти два слова. Учитывая, что количество продуктов может достигать многих миллионов, мне было интересно, какую технологию лучше использовать с этим, можно ли что-то масштабировать, надеюсь, или, может быть, есть решения в облаке?

Что касается очистки, я думал о Node.js, так как могу связать его с jQuery, который идеально подходит для структур DOM и HTML. Что касается хранения, я все еще немного потерян, но у меня есть некоторый опыт работы с Lucene, поэтому я мог хранить очищенные данные непосредственно в Lucene.

Что ты думаешь? Любой совет от людей, которые сделали что-то подобное уже было бы здорово! Спасибо.

Ответы [ 3 ]

2 голосов
/ 15 сентября 2011

С точки зрения Noc-основанных веб-сканеров, проверьте следующие ссылки:

http://www.coderholic.com/scraping-the-web-with-node-io/

https://github.com/mikeal/spider

https://github.com/creationix/scraperdemo

1 голос
/ 15 сентября 2011

Nutch на самом деле идеально подходит для этого.Он содержит Lucene / Solr в качестве компонента поисковой системы.

Также ознакомьтесь с корпоративным Solr от Lucidworks, который имеет встроенный веб-сканер и довольно удобный графический интерфейс.

http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise

0 голосов
/ 01 июня 2011

Solr абсолютно идеально подходит для этой задачи

...