Если вы будете использовать двоичный исполняемый файл Nutch, после сканирования выполните команду -readseg.Это даст вам огромный файл, который содержит весь сырой HTML и другую информацию в нем.После этого вы можете проанализировать и сохранить необходимые данные в базе данных.
Если вы хотите запустить Nutch в Eclipse, вам следует добавить некоторый код в класс Fetcher.
pstatus = output(fit.url, fit.datum, content, status, CrawlDatum.STATUS_FETCH_SUCCESS);
updateStatus(content.getContent().length);
Написать простоевызовите и напишите код базы данных после этих строк в классе Fetcher.Вы можете получить необработанный html следующим образом:
content.getContent();
. Это возвращает представление массива байтов html-файла, преобразует его в String и сохраняет его в вашей базе данных.Вы можете страдать от кодировки символов: Nutch с UTF-8 для настройки Nutch.Тем не менее, проблема обычно возникает из-за кодировки Eclipse.Чтобы преодолеть это, возьмем подстроку контента, которая включает значение «charset» и:
String yourContent = new String(content.getContent, encodingYouFound);
«кодировка» - это строка, поэтому ее будет достаточно извлечь из «контента».Если это невозможно, некоторые сайты могут не иметь атрибута charset, используйте общую кодировку, например UTF-8.