Создание набора данных с помощью веб-сканирования - PullRequest
0 голосов
/ 22 января 2012

Я хочу создать набор данных, состоящий из 2000-3000 веб-страниц, начиная с нескольких начальных URL. Я попробовал это с помощью сканера Nutch, но мне не удалось это сделать (не удалось преобразовать данные «сегментов», извлеченные в HTML-страницы).

Есть ли какие-либо предложения по использованию другого сканера или другого инструмента? Что если веб-страницы содержат абсолютные URL-адреса, что сделает невозможным использование набора данных в автономном режиме?

1 Ответ

1 голос
/ 03 апреля 2012

Вы НЕ МОЖЕТЕ напрямую преобразовать сегменты с обходом по щелчку в HTML-файлы напрямую.

Я предлагаю вам следующие варианты:

  1. Вы можете попробовать изменить исходный код, чтобы сделать это. (Изучите класс org.apache.nutch.segment.SegmentReader. Затем вы можете изучить его, чтобы изменить работу в соответствии с вашим вариантом использования.)
  2. ПРОСТОЕ РЕШЕНИЕ, если вы не хотите тратить время на изучение кода: используйте Nutch для сканирования всех необходимых страниц. Затем просмотрите фактические URL-адреса, используя команду "bin/nutch readdb" (используйте опцию dump). Затем напишите сценарий для wget и сохраните его в виде HTML. Готово !!
...