У меня кластер небольшого размера (10 машин).Каждый из них имеет 16 ГБ оперативной памяти (которую...
JVM происходит сбой каждый раз при сканировании веб-страниц с использованием Apache Nutch 1.15 на...
Я использую nutch1.x для просмотра и индексации сайта в solr (5.5.0).Я пытаюсь включить...
В настоящее время я пытаюсь запустить задание Nutch под Hadoop на кластере с одним узлом (только...
У меня есть вопрос о повторном сканировании с Nutch 1.15 (или 1.14 тоже) Я прочитал статью Паскаля...
Я работаю над проектом с Apache Nutch 2.3.1, и мне нужно иметь возможность извлекать конкретные...
Я разрабатывал пользовательский интерфейс поиска для моего приложения с использованием компонентов...
~/apache-nutch-2.3.1$ runtime/local/bin/nutch inject urls/ InjectorJob: starting at 2018-08-30...
Nutch Crawler успешно проиндексировал документы до определенного времени. В какой-то момент его...
Я сканирую веб-сайт, на котором есть много поддоменов. Я хочу ограничить просмотр нескольких...
Скачанный Nutch 1.14 src, разархивированный во время выполнения, открыл файл nutch-site.xml и...
Попытка настроить Nutch 1.14 для использования плагина indexer -astic-rest-rest для использования с...
Я настроил Nutch 2.3.1 с экосистемой Hadoop / Hbase для сканирования контента на языке урду. Для...
Я ползаю, используя Apache Nutch 1.13.На этапе разбора я получаю эту ошибку.Я не могу получить URL,...
Я использую Nutch 1.14 и пытаюсь проиндексировать небольшой веб-обход в ES v5.3.0, и я получаю эту...
Я пытался добавить pdf, используя nutch mysql solrindex, но был добавлен только один документ....
Как я могу сканировать страницы, основанные на аутентификации, используя Nutch?Я выполнил все...
Я работал с Solr и Nutch, чтобы сканировать и индексировать весь контент с моего сайта в интрасети...
Я хочу просканировать этот сайт: https://511.org/alerts/traffic/incidents, используя Apache Nutch
Я использую Nutch 2.x для сканирования домена, где каждая html-страница имеет ссылку на...
Попробовал поискать проблему, но не смог найти ничего полезного. После учебника в https://wiki
Я хочу отфильтровать URL-адрес в следующем формате: https://www.abcd.com/def/*, что означает, что...
Я использую Apache Nutch для сканирования сайтов.Когда я использую команду readseg для чтения...
Я настроил Nutch 2.3.1 с полной экосистемой Hadoop / Hbase на небольшом кластере. Мне любопытно по...
Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop / Hbase. Ниже приведены сведения о конфигурации....