Настройка Nutch 1.3 и Solr 3.1 - PullRequest
       15

Настройка Nutch 1.3 и Solr 3.1

2 голосов
/ 24 октября 2011

Я пытаюсь заставить работать Nutch 1.3 и Solr 3.1.

Примечание. Я использую Windows и у меня установлен Cygwin.

У меня установлен Nutch и выполнен базовый обход (выполняется из среды выполнения / локальный)

URL-адреса сканирования bin / nutch -dir crawl -depth 3

Кажется, это работает на основе журналов (crawl.log) ... LinkDb: завершено в 2011-10-24 14:22:47, прошло: 00:00:02 сканирование завершено: сканирование

Я установил solr и подтвердил установку с помощью localhost: 8983 / solr / admin

Я скопировал файл схемы орехов schema.xml в папку example \ solr \ conf

Когда я запускаю следующую команду

bin / nutch solrindex http://localhost:8983/solr crawl / crawldb crawl / linkdb crawl / сегменты / *

Я получаю следующую ошибку (hadoop.log)

2011-10-24 15:39:26,467 WARN  mapred.LocalJobRunner - job_local_0001
org.apache.solr.common.SolrException: ERROR:unknown field 'content'

ERROR:unknown field 'content'
request: http://localhost:8983/solr/update?wt=javabin&version=2
...
org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:48)
    at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216)
2011-10-24 15:39:26,676 ERROR solr.SolrIndexer - java.io.IOException: Job failed!

Чего мне не хватает?

1 Ответ

0 голосов
/ 26 октября 2011

Кажется, что определение поля содержимого отсутствует в schema.xml.

, например

<field name="content" type="text" stored="false" indexed="true"/>

Пример schema.xml @ http://svn.apache.org/viewvc/nutch/branches/branch-1.3/conf/schema.xml?view=markup, кажется, имеет его. Возможно, вы захотите проверить файл schema.xml, который вы скопировали.

...