Nutch как резервный паук с нестандартной обработкой трубопроводов - PullRequest
0 голосов
/ 22 марта 2019

Я хотел бы использовать Apache Nutch в качестве паука, который выбирает только указанный список URL (без сканирования).URL будут сохранены в Redis, и я хочу, чтобы Nutch постоянно извлекал их из списка и получал html.Паук должен находиться в режиме ожидания - он всегда ожидает поступления новых URL-адресов в Redis, пока пользователь не решит прекратить работу.Также я хотел бы применить свои собственные конвейеры обработки к извлеченным html-файлам (не только для извлечения текста).Можно ли это сделать с Nutch?

1 Ответ

1 голос
/ 22 марта 2019

StormCrawler был бы намного лучше для достижения этой цели - он был разработан, чтобы иметь возможность обслуживать сценарии, подобные описанному вами.Вам нужно было бы написать собственный излив, соединяющийся с Redis, повторно использовать болты сборщика и анализатора, а затем добавить болты с вашей собственной обработкой.Некоторые из первых пользователей SC делали именно это

...