Я боролся с запуском Java-процесса из Perl.Корень проблемы в том, что в Java-процессе отсутствует...
После одного дня ползания с орехом (1.4) ... наконец я получил плохое плохое исключение: . . ....
Я использую apache-nutch-1.4 с apache-solr-3.2.0 Я успешно интегрировал ОРЕХ с SOLR когда я...
Я использую apache-nutch-1.4 с apache-solr-3.2.0 Я могу установить оба иинтегрировать успешно ,...
Я удаляю сегменты после того, как они проиндексированы, тогда как Nutch получит время последней...
Похоже, что только индексы NUTCH (некоторые) анализируют результаты.Он запускает фильтры индексации...
Я использую Nutch и хотел бы индексировать интрасеть, но как убедиться, что все в интрасети будет...
В сущности, я реализую плагин, который будет получать содержимое веб-страниц и обрабатывать их...
У меня есть миллион URL-адресов для получения. Я использую этот список как семена орехов и...
У меня db.max.anchor.length установлено на 5, но Nutch по-прежнему выбирает URL с длиной привязки...
В каких случаях URL перешел на фазу db_unfetched. делает URL не удовлетворяющим crawlurlfilter.txt...
Я использую Nutch 1.4, и я хотел бы отобразить статическое поле в Solr. Я знаю, что есть плагин...
Могу ли я получить поля заголовка ответа HTTP, проанализированные с помощью Nutch? Это встроенная...
Я сканирую сайт с помощью Nutch 1.4, я понимаю, что Nutch не сканирует все ссылки на этом сайте. у...
in nutch, я ищу способ получить содержимое страницы как есть (со строками, новыми строками и...
На каком сайте Criteia Nchch выбирает TopN документы при сканировании?И как Nutch создает сегменты
Я использую Nutch для сканирования большого сайта. Веб-страницы создаются программой CGI. URL...
Я пытаюсь настроить Nutch в качестве сканера изображений и уже могу получить URL-адреса изображений...
Я успешно запустил Nutch (v1.4) для сканирования в локальном режиме в моей системе Ubuntu 11.10....
Можно ли определить определенный тип файла, который будет сканироваться? Я пытаюсь обойти файл...
Я хочу создать набор данных, состоящий из 2000-3000 веб-страниц, начиная с нескольких начальных URL
<configuration> <property> <name>searcher.dir</name>...
Я работаю над созданием пользовательского NUTCH плагина со специальными требованиями. Я обнаружил,...
Я хочу отсканировать какой-нибудь проект на GitHub, скажем, я хочу отсканировать исходный код,...
Я использую Nutch 1.4 для реализации сфокусированного гусеничного механизма.Может кто-нибудь...