Направленное сканирование с использованием Nutch или Heritrix - PullRequest
0 голосов
/ 15 июля 2010

Я видел, как Натч и Херитрикс ползают.Они оба имеют концепцию циклов генерации / выборки / обновления, которые начинаются с некоторых исходных URL-адресов и повторяются по URL-адресам результата после этапа выборки.

Логика определения объема / фильтрации работает с регулярным выражением, примененным к извлеченным URL-адресам.

Я хочу сделать что-то очень конкретное.Я не хочу извлекать все URL-адреса со страницы, но я бы предпочел получить URL-адреса на основе некоторого xpath.Причины: - Не все URL-адреса могут быть классифицированы с точным регулярным выражением. - Я мог бы пропустить некоторые URL-адреса, которые выходят за пределы данного регистра, например, - я мог бы также следовать последовательности «Следующая страница». - Конкретный цикл сканирования может иметь другую основанную на xpathфильтры на каждой глубине.

Кто-нибудь делал такое с Nutch of Heritrix?

Спасибо, Найн

1 Ответ

0 голосов
/ 28 июля 2010

Я пытался создать POC с обоими из них.Мне нужны были ссылки, чтобы начать следующую фазу сканирования с набором правил diff.При использовании Heritrix невозможно сохранить исходящие ссылки на последнем прыжке, поскольку все исходящие ссылки отбрасываются.С Nutch нет никакого способа включить мой собственный скребок, который не возвращает outlink и т. Д., Которые требуются его внутренними структурами данных, такими как ParseData и т. Д. Кроме того, он тесно связан с lucene и связанной системой индексации.Спасибо Найн

...