Nutch - как сканировать файлы определенного типа? - PullRequest
0 голосов
/ 23 января 2012

Можно ли определить определенный тип файла, который будет сканироваться?

Я пытаюсь обойти файл regex-urlfildtr.txt, но вижу только, как я могу указать, какой тип НЕ сканировать.

Можно ли определить только то, что я хочу сканировать, скажем, файлы .doc?

1 Ответ

0 голосов
/ 03 апреля 2012

В файле $ NUTCH_HOME / conf / regex-urlfilter.txt удалите существующие шаблоны регулярных выражений и вставьте это:

+\.doc$ 
-.

Это позволит сканировать только файлы .doc и отфильтровывать остальные URL-адреса.

...