Я пытаюсь использовать Nutch изнутри Java (не как инструмент командной строки).Вот что я делаю:
import org.apache.hadoop.conf.Configuration;
import org.apache.nutch.crawl.InjectorJob;
String[] args = {"/tmp/my-urls-dir"};
Configuration conf = new Configuration();
new InjectorJob(conf).run(args);
Я получаю:
java.lang.Exception: java.lang.IllegalArgumentException: plugin.folders is not defined
at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)
Кажется, что nutch-default.xml
не найден, и поэтому плагины не загружены (яМне также любопытно, где они, так как я не вижу их в nutch-2.3.1.jar
).Что мне не хватает?Моя зависимость:
<dependency>
<groupId>org.apache.nutch</groupId>
<artifactId>nutch</artifactId>
<version>2.3.1</version>
</dependency>
Было бы замечательно, если бы вы могли указать мне на какое-нибудь онлайн-руководство, чтобы понять, как Nutch может быть интегрирован в приложение Java (не как инструмент командной строки).