Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop / Hbase. Ниже приведены сведения о конфигурации.
<configuration>
<property>
<name>db.score.link.internal</name>
<value>5.0</value>
</property>
<property>
<name>enable.domain.check</name>
<value>true</value>
</property>
<property>
<name>http.timeout</name>
<value>30000</value>
</property>
<property>
<name>generate.max.count</name>
<value>200</value>
</property>
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
</property>
<property>
<name>http.agent.name</name>
<value>My Private Spider Bot</value>
</property>
<property>
<name>http.robots.agents</name>
<value>My Private Spider Bot</value>
</property>
<property>
<name>plugin.includes</name>
<value>protocol-http|indexer-solr|urlfilter-regex|parse-(html|tika)|index-(basic|more)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>
</property>
</configuration>
Есть 3 вычислительных узла, где выполняется задание Nutch. Теперь проблема заключается в том, что после использования 5000 доменов в качестве начального начального значения Nutch извлекает только несколько доменов, а также существует множество новых доменов, где выбирается только один документ.
Я хочу, чтобы Nutch Fairy выбрал все домены. Также я дал оценку 5 для ссылок, но мой твикинг показывает, что это свойство вообще не влияет.
Я обработал данные, обработанные после обработки, и обнаружил, что в базе данных (hbase) всего 14000 доменов, и из них более 50% доменов не сканируются Nutch (их документы имеют код состояния выборки 0x01). Почему так. Как изменить Nutch для рассмотрения новых доменов, т. Е. Это должно быть справедливо для всех доменов как-то для получения.