Самой большой проблемой, с которой я столкнулся при работе с библиотеками такого типа, было отсутствие поддержки синтаксического анализа CSS, поэтому импортируемые таблицы стилей, фоновые изображения и т. Д. Также загружаются при зеркалировании сайта.
wget имеет встроенную поддержку для этого (по крайней мере, в последних версиях), и хотя это не очень чистое решение для запуска этой программы из Java, я сначала попробую ее и посмотрю, соответствует ли она вашим потребностям.