Question

Я хочу создать набор данных, состоящий из 2000-3000 веб-страниц, начиная с нескольких начальных URL. Я попробовал это с помощью сканера Nutch, но мне не удалось это сделать (не удалось преобразовать данные «сегментов», извлеченные в HTML-страницы).

Есть ли какие-либо предложения по использованию другого сканера или другого инструмента? Что если веб-страницы содержат абсолютные URL-адреса, что сделает невозможным использование набора данных в автономном режиме?

Tejas Patil · Answer 1 · 03 апреля 2012

Вы НЕ МОЖЕТЕ напрямую преобразовать сегменты с обходом по щелчку в HTML-файлы напрямую.

Я предлагаю вам следующие варианты:

Вы можете попробовать изменить исходный код, чтобы сделать это. (Изучите класс org.apache.nutch.segment.SegmentReader. Затем вы можете изучить его, чтобы изменить работу в соответствии с вашим вариантом использования.)
ПРОСТОЕ РЕШЕНИЕ, если вы не хотите тратить время на изучение кода: используйте Nutch для сканирования всех необходимых страниц. Затем просмотрите фактические URL-адреса, используя команду "bin/nutch readdb" (используйте опцию dump). Затем напишите сценарий для wget и сохраните его в виде HTML. Готово !!

Создание набора данных с помощью веб-сканирования

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Создание набора данных с помощью веб-сканирования

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы