Возможно, вам также следует рассмотреть альтернативу, например запуск стандартной утилиты, такой как wget или curl из командной строки, для извлечения дерева сайта в дерево локальных каталогов. Затем выполните сканирование (на Java, Python и т. Д.), Используя локальную копию. Это должно быть проще, чем реализовать все скучные вещи, такие как обработка ошибок, разбор аргументов и т. Д.
Если вы хотите получить все страницы сайта, wget и curl не знают, как собирать ссылки с HTML-страниц. Альтернативой является использование веб-сканера с открытым исходным кодом .