Ошибка Nutch в Eclipse - PullRequest
       8

Ошибка Nutch в Eclipse

0 голосов
/ 31 марта 2012

Я пытаюсь запустить Apache Nutch из Eclipse .Я следовал инструкциям на http://wiki.apache.org/nutch/RunNutchInEclipse. Однако в источниках "parse-html" (как java, так и test) есть ошибки.В любом случае, я запускаю его, он читает и получает URL-адреса из seed.txt и возвращает эту ошибку:

Fetcher: finished at 2012-03-31 17:21:56, elapsed: 00:00:07
ParseSegment: starting at 2012-03-31 17:21:56
ParseSegment: segment: crawl/segments/20120331172142
Exception in thread "main" java.io.IOException: Job failed!

Я хотел бы отметить, что моя цель - получить индексы из Nutch и хранить их в MongoDB .

Ответы [ 3 ]

1 голос
/ 28 августа 2012

Добавьте следующее к ivy.xml:

<dependency org="rome" name="rome" rev="0.9" />
<dependency org="net.sourceforge.nekohtml" name="nekohtml" rev="1.9.13" />
<dependency org="org.ccil.cowan.tagsoup" name="tagsoup" rev="1.2.1" />
0 голосов
/ 21 апреля 2012

Я нашел 3 банки и добавил их в проект как внешние банки, и это сработало. Эти банки: cyberneko.jar , rome-0.9.jar и tagsoup-1.2.jar , и вы можете найти все с помощью простого поиска Google.

0 голосов
/ 12 апреля 2012

Я столкнулся с той же проблемой. Вот два способа, которые могут помочь:

  • Изменить файл conf / log4j.properties для сообщения о сообщениях отладки;
  • прочитайте файл hadoop.log, который обычно находится в $ NUTCH_HOME или $ NUTCH_HOME / logs.

Изучив эти сообщения, вы сможете обнаружить проблему.

Вот руководство по запуску Nutch в Eclipse, в котором также рассказывается о нескольких обработках ошибок.

...