Question

Я могу успешно запустить команду сканирования через Cygwin на Windows XP. и я также могу сделать поиск в Интернете с помощью tomcat.

но я также хочу сохранить проанализированные страницы во время события сканирования

поэтому, когда я начинаю ползать вот так

URL-адреса сканирования бина / ореха - каталог сканирован - глубина 3

Я также хочу сохранить проанализированные HTML-файлы в текстовые файлы

Я имею в виду в течение этого периода, который я начал с вышеприведенной команды

При получении страницы она также автоматически сохраняет эту проанализированную страницу (только текст) в текстовые файлы

имена этих файлов могут быть получены url

Мне действительно нужна помощь об этом

это будет использоваться в моем проекте по определению языка в университете

ти

Pascal Dimassimo · Answer 1 · 15 апреля 2010

Отсканированные страницы хранятся в сегментах. Вы можете получить к ним доступ, сбросив содержимое сегмента:

nutch readseg -dump crawl/segments/20100104113507/ dump

Вам придется сделать это для каждого сегмента.

как анализировать (только текстовые) сайты при сканировании

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.