как анализировать (только текстовые) сайты при сканировании - PullRequest
0 голосов
/ 07 апреля 2010

Я могу успешно запустить команду сканирования через Cygwin на Windows XP. и я также могу сделать поиск в Интернете с помощью tomcat.

но я также хочу сохранить проанализированные страницы во время события сканирования

поэтому, когда я начинаю ползать вот так

URL-адреса сканирования бина / ореха - каталог сканирован - глубина 3

Я также хочу сохранить проанализированные HTML-файлы в текстовые файлы

Я имею в виду в течение этого периода, который я начал с вышеприведенной команды

При получении страницы она также автоматически сохраняет эту проанализированную страницу (только текст) в текстовые файлы

имена этих файлов могут быть получены url

Мне действительно нужна помощь об этом

это будет использоваться в моем проекте по определению языка в университете

ти

1 Ответ

1 голос
/ 15 апреля 2010

Отсканированные страницы хранятся в сегментах. Вы можете получить к ним доступ, сбросив содержимое сегмента:

nutch readseg -dump crawl/segments/20100104113507/ dump

Вам придется сделать это для каждого сегмента.

...