Norconex HTTP Collector пересекает веб-сайты, как дерево, по одному или нескольким начальным URL-адресам. Его можно использовать как библиотеку Java в вашем приложении или как приложение командной строки. Вы можете решить, что делать с каждым сканируемым документом. Будучи полноценным веб-сканером, он, вероятно, делает больше, чем то, что вам нужно, но вы можете настроить его в соответствии со своими потребностями.
Например, по умолчанию он будет извлекать текст, найденный в ваших документах, и он позволит вам решить, что делать с этим текстом, подключив «Committer» (т. Е. Где «зафиксировать» извлеченный контент). В вашем случае я думаю, что вы хотите только необработанные документы и игнорировать часть преобразования текста. Вы можете сделать это, подключив собственный обработчик документов, а затем «отфильтровав» документы, чтобы они перестали обрабатываться, как только вы справитесь с ними по-своему.
Проект с открытым исходным кодом, размещен на Github и полностью "mavenized". Он поддерживает robots.txt, но это можно отключить, если хотите. Единственным недостатком для вас является наличие нескольких зависимостей, но, поскольку вы используете Maven, они должны решаться автоматически без усилий. На сайте продукта вы найдете Информация о репозитории Maven .