Как настроить расположение файла nutch-default.xml? - PullRequest
0 голосов
/ 28 марта 2019

Я пытаюсь использовать Nutch изнутри Java (не как инструмент командной строки).Вот что я делаю:

import org.apache.hadoop.conf.Configuration;
import org.apache.nutch.crawl.InjectorJob;
String[] args = {"/tmp/my-urls-dir"};
Configuration conf = new Configuration();
new InjectorJob(conf).run(args);

Я получаю:

java.lang.Exception: java.lang.IllegalArgumentException: plugin.folders is not defined
    at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)

Кажется, что nutch-default.xml не найден, и поэтому плагины не загружены (яМне также любопытно, где они, так как я не вижу их в nutch-2.3.1.jar).Что мне не хватает?Моя зависимость:

<dependency>
  <groupId>org.apache.nutch</groupId>
  <artifactId>nutch</artifactId>
  <version>2.3.1</version>
</dependency>

Было бы замечательно, если бы вы могли указать мне на какое-нибудь онлайн-руководство, чтобы понять, как Nutch может быть интегрирован в приложение Java (не как инструмент командной строки).

...