Извлечение данных? - PullRequest
       7

Извлечение данных?

1 голос
/ 17 мая 2010

Я ищу способы извлечения различных данных с разных сайтов. Я знаю, что есть программы, которые вы можете купить, но, поскольку я пытаюсь учиться, я хочу сделать это сам. Есть ли у кого-нибудь какие-либо предложения по общей структуре, и если да, на каком языке вы бы это написали. Моей первой мыслью была java, но я более чем рад и рад услышать мнение других.

Ответы [ 2 ]

1 голос
/ 17 мая 2010

Какие данные вы пытаетесь извлечь с веб-сайтов? Какие сайты? и т. д. Было бы полезно немного подробнее рассказать о вашей идее / проекте

Недавно у меня возникла необходимость изучить и попробовать несколько html-парсеров, чтобы получить нужные мне данные в более консолидированном формате.

Я попробовал JTidy (http://jtidy.sourceforge.net/) и заглянул в Web-Harvest (http://web -harvest.sourceforge.net / ). JTidy не вполне сделал бы то, что я хотел, и Web- Урожай был излишним.

В конечном итоге я остановился на использовании Java + htmlparser (http://htmlparser.sourceforge.net/)

Потребовалось очень мало времени на разработку, чтобы получить то, что мне было нужно, и htmlparser позволяет вам формировать «фильтры», которые ищут конкретные вещи в DOM.

0 голосов
/ 17 мая 2010

посмотрите на hadoop (сетки) и solr (сканеры и индексаторы). Они оба поддерживают интенсивную обработку и эффективную индексацию (для эффективного поиска) соответственно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...