Я пытаюсь сканировать, используя Nutch 1.4, но при синтаксическом анализе я сталкиваюсь с ошибкой,...
Я хочу получить все ссылки с любого веб-сайта, используя NUTCH в JAVA.Есть ли какой-либо пример...
Я провожу некоторые тесты с помощью nutch и hadoop, и мне нужно огромное количество данных. Я хочу...
Я буду немного многословен, чтобы четко определить проблему, поэтому, пожалуйста, наберитесь...
В настоящее время я работаю над секретным сайтом, который разработан на PHP.Я хочу реализовать два...
Я хочу удалить определенные элементы из ответа на странице, прежде чем он будет передан до конца. В...
В сущности, когда я сканирую, а затем снова сканирую, создаются дублированные сегменты. как я могу...
я ползаю сайты с орехом 1.3. я вижу это исключение в своем журнале, когда Nutch сканирует мои...
Мое требование - сканировать данные с HBASE с использованием Nutch, а затем индексировать их в Solr...
Я сравниваю эти четыре Nutch / Heritrix / OpenPipeLine / Apache Tika Какой из них лучше? Каковы...
Я пытался настроить Nutch с помощью Solr, но получаю следующее исключение Сборщик: в свойстве 'http
Мне нужно получить фрагменты из документов, в которых сопоставляются условия запроса, чтобы иметь...
Я использую Solr + Nutch и мне нужно получить фрагмент каждого результата. Я попытался установить...
Я использую следующую команду для сканирования одной страницы с 788 ссылками: nutch crawl urls/...
Я читал на сайтах, которые извлекают ссылки из всех ссылок, относящихся к topN.У меня есть 4 ссылки...
Я пытаюсь разработать функцию поиска, в которой я ввожу название города, и оно дает мне погодные...
Я ползаю сайты в нутче 1.3. теперь я хочу удалить URL из crawldb, как я могу это сделать? как я...
Я использую nutch1.3 для сканирования какой-либо веб-страницы и solr для создания каждого индекса....
Я просто пытаюсь сбросить свои сегменты из сканирования, используя readseg. Если у меня есть только...
Мне нужно, чтобы Nutch разбивал веб-страницы на предложения при сохранении результатов сканирования
Используя Nutch, я хотел бы отсканировать все http://www.amazon.com/ веб-страницы с ipod в URL....
Привет, я установил solr и nutch в Ubuntu.Я могу сканировать и индексировать время от времени, но...
Я пытаюсь заставить работать Nutch 1.3 и Solr 3.1. Примечание. Я использую Windows и у меня...
Я установил re_crawler для загрузки сайта каждый день. но это сайт 3 раза. какое свойство я должен...
У меня много сайтов; Содержание некоторых меняется каждый месяц, а содержание некоторых меняется...