Я пытаюсь использовать Nutch (1.1) без bin / nutch из моего (java) mojarra 2.0.2 веб-приложения ... Я ищу примеры в Google, но нет примеров, как я могу это реализовать: .. я получаю исключение, и работа не выполняется: / (я думаю о причине чего-то с hadoop) ... вот мой код:
public void run() throws Exception {
final String[] args = new String[] {
String.format("%s%s%s%s", JSFUtils.getWebAppRoot(), "nutch", File.separator, DIRECTORY_URLS),
"-dir", String.format("%s%s%s%s", JSFUtils.getWebAppRoot(), "nutch", File.separator, DIRECTORY_CRAWL),
"-threads", this.preferences.get("threads"),
"-depth", this.preferences.get("depth"),
"-topN", this.preferences.get("topN"),
"-solr", this.preferences.get("solr")
};
Crawl.main(args);
}
и часть регистрации:
10/05/17 10:42:54 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
10/05/17 10:42:54 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
10/05/17 10:42:54 INFO mapred.FileInputFormat: Total input paths to process : 1
10/05/17 10:42:54 INFO mapred.JobClient: Running job: job_local_0001
10/05/17 10:42:54 INFO mapred.FileInputFormat: Total input paths to process : 1
10/05/17 10:42:55 INFO mapred.MapTask: numReduceTasks: 1
10/05/17 10:42:55 INFO mapred.MapTask: io.sort.mb = 100
java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1232)
at org.apache.nutch.crawl.Injector.inject(Injector.java:211)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:124)
at lan.localhost.process.NutchCrawling.run(NutchCrawling.java:108)
at lan.localhost.main.Index.indexing(Index.java:71)
at lan.localhost.bean.FeedingBean.actionStart(FeedingBean.java:25)
....
Может кто-нибудь мне помочь или сказать, как я могу сканировать из Java-приложения? Я увеличил Xms до 256 м и Xmx до 768 м, но ничего не изменилось ...
С наилучшими пожеланиями Марсель