Apache Nutch не сканирует все сайты в ссылках - PullRequest
0 голосов
/ 08 мая 2018

Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop / Hbase. Ниже приведены сведения о конфигурации.

<configuration>

<property>
  <name>db.score.link.internal</name>
  <value>5.0</value>
</property>

<property>
  <name>enable.domain.check</name>
  <value>true</value>
</property>

<property>
  <name>http.timeout</name>
  <value>30000</value>
</property>

<property>
  <name>generate.max.count</name>
  <value>200</value>
</property>

<property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.hbase.store.HBaseStore</value>
</property>


<property>
    <name>http.agent.name</name>
    <value>My Private Spider Bot</value>
</property>

<property>
    <name>http.robots.agents</name>
    <value>My Private Spider Bot</value>
    </property>
<property>
        <name>plugin.includes</name>
    <value>protocol-http|indexer-solr|urlfilter-regex|parse-(html|tika)|index-(basic|more)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>    
</property>

</configuration>

Есть 3 вычислительных узла, где выполняется задание Nutch. Теперь проблема заключается в том, что после использования 5000 доменов в качестве начального начального значения Nutch извлекает только несколько доменов, а также существует множество новых доменов, где выбирается только один документ. Я хочу, чтобы Nutch Fairy выбрал все домены. Также я дал оценку 5 для ссылок, но мой твикинг показывает, что это свойство вообще не влияет.

Я обработал данные, обработанные после обработки, и обнаружил, что в базе данных (hbase) всего 14000 доменов, и из них более 50% доменов не сканируются Nutch (их документы имеют код состояния выборки 0x01). Почему так. Как изменить Nutch для рассмотрения новых доменов, т. Е. Это должно быть справедливо для всех доменов как-то для получения.

1 Ответ

0 голосов
/ 15 июня 2018

Как вы ползаете? В bin / crawl есть функция определения глубины (ссылка следующая). Вы можете добиться хороших результатов, используя аргументы bin / nutch, и в зависимости от приблизительного общего размера желаемых сайтов, вы должны запускать их как минимум один раз на 3000 страниц. Это означает, что если у вас есть 18000 страниц (включая страницы, извлеченные по ссылкам), вы должны запустить его 1800/3 = 6 раз, чтобы получить полные данные.

...