Я видел, как Натч и Херитрикс ползают.Они оба имеют концепцию циклов генерации / выборки / обновления, которые начинаются с некоторых исходных URL-адресов и повторяются по URL-адресам результата после этапа выборки.
Логика определения объема / фильтрации работает с регулярным выражением, примененным к извлеченным URL-адресам.
Я хочу сделать что-то очень конкретное.Я не хочу извлекать все URL-адреса со страницы, но я бы предпочел получить URL-адреса на основе некоторого xpath.Причины: - Не все URL-адреса могут быть классифицированы с точным регулярным выражением. - Я мог бы пропустить некоторые URL-адреса, которые выходят за пределы данного регистра, например, - я мог бы также следовать последовательности «Следующая страница». - Конкретный цикл сканирования может иметь другую основанную на xpathфильтры на каждой глубине.
Кто-нибудь делал такое с Nutch of Heritrix?
Спасибо, Найн