Ваша основная задача - очистить определенные страницы с веб-сайта.
Nutch : ПО для поиска в Интернете с открытым исходным кодом, построенное на Lucene Java
Heritrix : это проект по поиску в Интернете с открытым исходным кодом, расширяемый, масштабируемый в сети, веб-сканер архивного качества
Так что я думаю, что Heritrix намного лучше, чем Nutch для вашего проекта.
Изучение основы / библиотеки является ценным упражнением.Но это занимает некоторое время.Поскольку ваша задача не очень сложна, иногда было бы менее болезненно написать простой сканер с нуля на Java