Опаздывает в эту ветку, но на самом деле crawler4j хорошо справляется с обработкой файлов cookie.Вы даже можете проверить значения файлов cookie, потому что можете получить доступ к базовому HTTP-клиенту (apache).Например:
@Override
public void visit(Page page) {
super.visit(page);
DefaultHttpClient httpClient = (DefaultHttpClient) getMyController().getPageFetcher().getHttpClient();
for (Cookie cookie : httpClient.getCookieStore().getCookies()) {
if ( cookie.getName().equals("somename") ) {
String value = cookie.getValue();
}
}
}
Я кратко посмотрел на Nutch, но crawler4j кажется более простым для интеграции (5 минут с использованием зависимости maven) и идеально подходил для моих нужд (я проверял, что cookie-файл сеанса поддерживается на моем сайте черезбольшое количество запросов).