Nutch Нет агентов, перечисленных в 'http.agent.name' - PullRequest
11 голосов
/ 05 июля 2011
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property.
        at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166)
        at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1068)
        at org.apache.nutch.crawl.Crawl.run(Crawl.java:135)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:54)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:616)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:156)

Каждый раз, когда я бегу ./nuts crawl url -dir crawl -depth 3 -topN 5. Nutch решает выбросить эту ошибку. Я установил оба свои nutch-site.xml и nutch-default.xml.

 <property>
  <name>http.agent.name</name>
  <value>blah</value>
  </property>

Взял описание, чтобы его было легче читать. Но я не вижу, где еще можно указать имя агента. если у кого-нибудь есть совет, я был бы признателен.

Ответы [ 2 ]

16 голосов
/ 08 июля 2011

с использованием 1,3?Если это так, убедитесь, что вы изменили nutch-site.xml (и не по умолчанию) в runtime / local / conf. Изменение conf в NUTCH_HOME / conf не будет скопировано в директории времени выполнения, пока вы не перестроите с помощью ant.

0 голосов
/ 08 июля 2011

Попробуйте также указать имя агента для http.robots.agents.Это сработало для меня.После этого я не получил это сообщение !!!

...