Зеркальное отображение сайтов на Java - PullRequest
2 голосов
/ 19 октября 2010

Мне нужно отразить некоторые веб-сайты из моего Java-приложения. Я искал библиотеку Java с открытым исходным кодом для этой работы, но не нашел ничего подходящего.

Кто-нибудь знает о каком-нибудь дружественном к Java инструменте для извлечения целых веб-сайтов, или я должен придерживаться exec wget из моей программы?

Большое спасибо.

Ответы [ 2 ]

1 голос
/ 20 октября 2010

Самой большой проблемой, с которой я столкнулся при работе с библиотеками такого типа, было отсутствие поддержки синтаксического анализа CSS, поэтому импортируемые таблицы стилей, фоновые изображения и т. Д. Также загружаются при зеркалировании сайта.

wget имеет встроенную поддержку для этого (по крайней мере, в последних версиях), и хотя это не очень чистое решение для запуска этой программы из Java, я сначала попробую ее и посмотрю, соответствует ли она вашим потребностям.

0 голосов
/ 19 октября 2010

Я бы порекомендовал гусеничный / паук. Aspider и Sperowider используют Apache HttpClient lib (мой любимый httplib) и сканируют сайт по ссылкам. Поскольку они OSS , вы сможете интегрировать их в свое программное обеспечение. Они также в настоящее время не поддерживаются, но Apache HttpClient lib будет хорошим началом, если вы захотите написать свой собственный инструмент зеркалирования в java.

...