Какой веб-сканер для извлечения и анализа данных примерно с тысячи веб-сайтов - PullRequest
4 голосов
/ 31 октября 2009

Я пытаюсь сканировать около тысячи веб-сайтов, с которых меня интересует только HTML-контент.

Затем я преобразую HTML в XML для анализа с помощью Xpath, чтобы извлечь конкретный интересующий меня контент.

Я использовал сканер Heritrix 2.0 в течение нескольких месяцев, но столкнулся с огромными проблемами с производительностью, памятью и стабильностью (Heritrix вылетает каждый день, и попытки с параметрами JVM ограничить использование памяти были успешными).

Из вашего опыта работы в этой области, какой сканер вы бы использовали для извлечения и анализа контента из тысячи источников?

Ответы [ 3 ]

3 голосов
/ 05 ноября 2009

Я бы не использовал бы ветку 2.x (которая была прекращена) или 3.x (текущая разработка) для любого "серьезного" сканирования, если вы не хотите помочь улучшить Heritrix или просто хотите быть на кровоточащем краю.

Heritrix 1.14.3 является самой последней стабильной версией, и она действительно стабильна , используемая многими учреждениями для сканирования как в малых, так и в больших масштабах. Я использую для сканирования десятки тысяч доменов, собирая десятки миллионов URL-адресов менее чем за неделю.

Ветвь 3.x становится ближе к стабильному выпуску, но даже тогда я бы немного подождал общего использования в Internet Archive и других, чтобы улучшить его производительность и стабильность.

Обновление: Поскольку кто-то недавно проголосовал за это, я чувствую, что стоит отметить, что Heritrix 3.x теперь стабильна и является рекомендуемой версией для тех, кто начинает с Heritrix.

3 голосов
/ 31 октября 2009

Я бы предложил написать свой собственный, используя Python с пакетами Scrapy и lxml или BeautifulSoup . Вы должны найти несколько хороших учебников в Google для них. Я использую Scrapy + lxml на работе, чтобы найти около 600 веб-сайтов, проверяющих битые ссылки.

0 голосов
/ 31 октября 2009

Ничего себе. Современные сканеры, такие как поисковые системы, используют сканирование и индексируют 1 миллион URL-адресов на блочной коробке в день. Конечно, шаг рендеринга HTML в XML занимает немного времени, но я согласен с вами по поводу производительности. Я использовал только частные сканеры, поэтому не могу порекомендовать тот, который вы сможете использовать, но надеюсь, что эти показатели эффективности помогут в вашей оценке.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...