Я пытаюсь заставить работать Nutch 1.3 и Solr 3.1.
Примечание. Я использую Windows и у меня установлен Cygwin.
У меня установлен Nutch и выполнен базовый обход (выполняется из среды выполнения / локальный)
URL-адреса сканирования bin / nutch -dir crawl -depth 3
Кажется, это работает на основе журналов (crawl.log) ... LinkDb: завершено в 2011-10-24 14:22:47, прошло: 00:00:02 сканирование завершено: сканирование
Я установил solr и подтвердил установку с помощью localhost: 8983 / solr / admin
Я скопировал файл схемы орехов schema.xml в папку example \ solr \ conf
Когда я запускаю следующую команду
bin / nutch solrindex http://localhost:8983/solr crawl / crawldb crawl / linkdb crawl / сегменты / *
Я получаю следующую ошибку (hadoop.log)
2011-10-24 15:39:26,467 WARN mapred.LocalJobRunner - job_local_0001
org.apache.solr.common.SolrException: ERROR:unknown field 'content'
ERROR:unknown field 'content'
request: http://localhost:8983/solr/update?wt=javabin&version=2
...
org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:48)
at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216)
2011-10-24 15:39:26,676 ERROR solr.SolrIndexer - java.io.IOException: Job failed!
Чего мне не хватает?