Как я могу сканировать PDF-файлы, которые обслуживаются в Интернете, используя Nutch-1.0, используя протокол http - PullRequest
1 голос
/ 09 октября 2009

Я хочу знать, как я могу сканировать PDF-файлы, которые обслуживаются в Интернете, используя Nutch-1.0, используя протокол http

Я могу сделать это на локальных файловых системах, используя протокол file: //, но не протокол http

1 Ответ

0 голосов
/ 29 октября 2009

добавьте это свойство в файл nutch-site.xml, после чего вы будете сканировать pdf файлы

<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</description>
</property>
...