Вопросы с тегом nutch

0 голосов

1 ответ

nutch Невозможно успешно разобрать содержимое

Я пытаюсь сканировать, используя Nutch 1.4, но при синтаксическом анализе я сталкиваюсь с ошибкой,...

Haya aziz / 09 января 2012

1 голос

0 ответов

Пример кода в Java с помощью Apache Nutch, чтобы получить все ссылки с веб-сайта

Я хочу получить все ссылки с любого веб-сайта, используя NUTCH в JAVA.Есть ли какой-либо пример...

cuneytykaya / 06 января 2012

8 голосов

5 ответов

Как произвести огромное количество данных?

Я провожу некоторые тесты с помощью nutch и hadoop, и мне нужно огромное количество данных. Я хочу...

AAaa / 29 декабря 2011

0 голосов

1 ответ

Использование Nutch для получения определенных тегов HTML

Я буду немного многословен, чтобы четко определить проблему, поэтому, пожалуйста, наберитесь...

Kartik Rustagi / 28 декабря 2011

0 голосов

2 ответов

Поисковая реализация на сайте объявлений

В настоящее время я работаю над секретным сайтом, который разработан на PHP.Я хочу реализовать два...

Rose / 20 декабря 2011

0 голосов

1 ответ

Apache Nutch: управление DOM перед анализом

Я хочу удалить определенные элементы из ответа на странице, прежде чем он будет передан до конца. В...

Paul Schyska / 20 декабря 2011

0 голосов

1 ответ

Натч - как удалить старые сегменты?

В сущности, когда я сканирую, а затем снова сканирую, создаются дублированные сегменты. как я могу...

AAaa / 19 декабря 2011

0 голосов

3 ответов

Неверно сформированный URL: '', пропуск (java.net.MalformedURLException

я ползаю сайты с орехом 1.3. я вижу это исключение в своем журнале, когда Nutch сканирует мои...

helen / 16 декабря 2011

2 голосов

2 ответов

Как я могу сканировать данные из hbase, используя Nutch

Мое требование - сканировать данные с HBASE с использованием Nutch, а затем индексировать их в Solr...

Infinity / 13 декабря 2011

5 голосов

2 ответов

Какой Open Source Crawler лучше?

Я сравниваю эти четыре Nutch / Heritrix / OpenPipeLine / Apache Tika Какой из них лучше? Каковы...

Riz / 07 декабря 2011

1 голос

1 ответ

Интеграция Nutch 1.4 с Solr 3.5 свойство http.agent.name

Я пытался настроить Nutch с помощью Solr, но получаю следующее исключение Сборщик: в свойстве 'http

Wasif Altaf / 06 декабря 2011

2 голосов

1 ответ

Solr: я установил `hl = true`, но сводные данные не выводятся

Мне нужно получить фрагменты из документов, в которых сопоставляются условия запроса, чтобы иметь...

Michael / 02 декабря 2011

1 голос

1 ответ

Получение фрагментов в Solr

Я использую Solr + Nutch и мне нужно получить фрагмент каждого результата. Я попытался установить...

Michael / 29 ноября 2011

0 голосов

1 ответ

Nutch crawler находит только подмножество ссылок на данной странице?

Я использую следующую команду для сканирования одной страницы с 788 ссылками: nutch crawl urls/...

mhdwrk / 28 ноября 2011

1 голос

1 ответ

что такое topN в нутче 1.3?

Я читал на сайтах, которые извлекают ссылки из всех ссылок, относящихся к topN.У меня есть 4 ссылки...

helen / 22 ноября 2011

0 голосов

1 ответ

Nutch crawler не индексирует контент HTML

Я пытаюсь разработать функцию поиска, в которой я ввожу название города, и оно дает мне погодные...

Shaggy / 18 ноября 2011

0 голосов

1 ответ

удалить URL из crawldb в Nutch 1,3?

Я ползаю сайты в нутче 1.3. теперь я хочу удалить URL из crawldb, как я могу это сделать? как я...

helen / 14 ноября 2011

2 голосов

1 ответ

Как получить страницу HTML, которая была просканирована с использованием кэша?

Я использую nutch1.3 для сканирования какой-либо веб-страницы и solr для создания каждого индекса....

tiagop85 / 12 ноября 2011

3 голосов

3 ответов

Выгрузить все сегменты из орехового

Я просто пытаюсь сбросить свои сегменты из сканирования, используя readseg. Если у меня есть только...

chrstahl89 / 01 ноября 2011

1 голос

1 ответ

Приговоры как документы в Nutch

Мне нужно, чтобы Nutch разбивал веб-страницы на предложения при сохранении результатов сканирования

Michael / 31 октября 2011

2 голосов

1 ответ

Nutch: поиск по ключевым словам

Используя Nutch, я хотел бы отсканировать все http://www.amazon.com/ веб-страницы с ipod в URL....

Zenvega / 29 октября 2011

2 голосов

2 ответов

Ошибка тракта Nutch

Привет, я установил solr и nutch в Ubuntu.Я могу сканировать и индексировать время от времени, но...

Zenvega / 28 октября 2011

2 голосов

1 ответ

Настройка Nutch 1.3 и Solr 3.1

Я пытаюсь заставить работать Nutch 1.3 и Solr 3.1. Примечание. Я использую Windows и у меня...

Mike Barlotta / 24 октября 2011

2 голосов

1 ответ

пересчитать URL в Nutch 1.3

Я установил re_crawler для загрузки сайта каждый день. но это сайт 3 раза. какое свойство я должен...

mina / 24 октября 2011

0 голосов

2 ответов

Как можно сканировать разные сайты с различным запланированным сканированием в Nutch 1.3?

У меня много сайтов; Содержание некоторых меняется каждый месяц, а содержание некоторых меняется...

mina / 19 октября 2011