Я хочу знать, как я могу сканировать PDF-файлы, которые обслуживаются в Интернете, используя Nutch-1.0, используя протокол http
Я могу сделать это на локальных файловых системах, используя протокол file: //, но не протокол http
добавьте это свойство в файл nutch-site.xml, после чего вы будете сканировать pdf файлы
<property> <name>plugin.includes</name> <value>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value> <description>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</description> </property>