Question

Я использую Apache Nutch для сканирования сайтов.Когда я использую команду readseg для чтения содержимого в сегменте, я получаю в формате, как показано ниже:

Есть ли способполучить веб-данные в текстовом формате? когда я использую команду readseg для разбора текста, я получаю таким образом

Jorge Luis · Answer 1 · 11 мая 2018

Команда readseg выводит (по умолчанию) содержимое raw , полученное из URL-адресов. Это весь переданный контент HTML. Если вы хотите получить текстовый контент, вам нужно подождать, пока контент не будет проанализирован. Это означает, что вам нужно выполнить весь цикл сканирования (или команду ./bin/nutch parse).

Проверьте различные параметры в команде readseg (https://wiki.apache.org/nutch/bin/nutch_readseg),, если вы уже выполняете шаг синтаксического анализа, вы, вероятно, заботитесь только о проанализированном содержимом, поэтому можете избежать печати всего остального.

получение данных из NUTCH в текстовом формате

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

получение данных из NUTCH в текстовом формате

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы