получение данных из NUTCH в текстовом формате - PullRequest
0 голосов
/ 10 мая 2018

Я использую Apache Nutch для сканирования сайтов.Когда я использую команду readseg для чтения содержимого в сегменте, я получаю в формате, как показано ниже:

Есть ли способполучить веб-данные в текстовом формате? когда я использую команду readseg для разбора текста, я получаю таким образом

1 Ответ

0 голосов
/ 11 мая 2018

Команда readseg выводит (по умолчанию) содержимое raw , полученное из URL-адресов. Это весь переданный контент HTML. Если вы хотите получить текстовый контент, вам нужно подождать, пока контент не будет проанализирован. Это означает, что вам нужно выполнить весь цикл сканирования (или команду ./bin/nutch parse).

Проверьте различные параметры в команде readseg (https://wiki.apache.org/nutch/bin/nutch_readseg),, если вы уже выполняете шаг синтаксического анализа, вы, вероятно, заботитесь только о проанализированном содержимом, поэтому можете избежать печати всего остального.

...