Question

Я хочу знать, как я могу сканировать PDF-файлы, которые обслуживаются в Интернете, используя Nutch-1.0, используя протокол http

Я могу сделать это на локальных файловых системах, используя протокол file: //, но не протокол http

Sunil · Answer 1 · 29 октября 2009

добавьте это свойство в файл nutch-site.xml, после чего вы будете сканировать pdf файлы

<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</description>
</property>

Как я могу сканировать PDF-файлы, которые обслуживаются в Интернете, используя Nutch-1.0, используя протокол http

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу сканировать PDF-файлы, которые обслуживаются в Интернете, используя Nutch-1.0, используя протокол http

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы