Пустой список сканирования Nutch - PullRequest
0 голосов
/ 18 декабря 2010

Я пытаюсь запустить сканирование с использованием Nutch в Eclipse.

Я использую файл с именем urls, и он содержит

http://www.google.com/

Однако, когда я запускаю проект, класс Generator сообщает мне, что:

"0 записей выбрано для извлечения, выход"

Как я могу решить эту проблему?

Я следовал этим документам:

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

Любая помощь будет принята с благодарностью.

Ответы [ 2 ]

1 голос
/ 26 июля 2012

Недавно я столкнулся с этой проблемой и обнаружил, что большинство ответов касаются (regex | crawl) -urlfiters.txt. Еще одна вещь, которую нужно проверить, это ваши настройки «-topN». Это должно быть достаточно большим, чтобы генератор прошел все фильтры.

Надеюсь, это поможет.

0 голосов
/ 04 февраля 2011

Скорее всего, ваш regex-urlfilter.xml. Попробуйте использовать это и посмотрите, решит ли это проблему

- ^ (файл | FTP | MAILTO):

- (GIF |. GIF | JPG | JPG | PNG | PNG | ICO | JS | ICO | документ | mp3 | MP3 | DOC | CSS | Новости | сидеть | EPS | WMF | застежка-молния | РРТ | миль на галлон | XLS | GZ | мин | TGZ | мы | MOV | ех | JPEG | JPEG | BMP | BMP) $

-. * (/ [^ /] +) / [^ /] + \ 1 / [^ /] + \ 1 /

+.

...