Вопросы с тегом nutch - PullRequest

Вопросы с тегом nutch

0 голосов
1 ответ

Я пытаюсь сканировать, используя Nutch 1.4, но при синтаксическом анализе я сталкиваюсь с ошибкой,...

Haya aziz / 09 января 2012
1 голос
0 ответов

Я хочу получить все ссылки с любого веб-сайта, используя NUTCH в JAVA.Есть ли какой-либо пример...

cuneytykaya / 06 января 2012
8 голосов
5 ответов

Я провожу некоторые тесты с помощью nutch и hadoop, и мне нужно огромное количество данных. Я хочу...

AAaa / 29 декабря 2011
0 голосов
1 ответ

Я буду немного многословен, чтобы четко определить проблему, поэтому, пожалуйста, наберитесь...

Kartik Rustagi / 28 декабря 2011
0 голосов
2 ответов

В настоящее время я работаю над секретным сайтом, который разработан на PHP.Я хочу реализовать два...

Rose / 20 декабря 2011
0 голосов
1 ответ

Я хочу удалить определенные элементы из ответа на странице, прежде чем он будет передан до конца. В...

Paul Schyska / 20 декабря 2011
0 голосов
1 ответ

В сущности, когда я сканирую, а затем снова сканирую, создаются дублированные сегменты. как я могу...

AAaa / 19 декабря 2011
0 голосов
3 ответов

я ползаю сайты с орехом 1.3. я вижу это исключение в своем журнале, когда Nutch сканирует мои...

helen / 16 декабря 2011
2 голосов
2 ответов

Мое требование - сканировать данные с HBASE с использованием Nutch, а затем индексировать их в Solr...

Infinity / 13 декабря 2011
5 голосов
2 ответов

Я сравниваю эти четыре Nutch / Heritrix / OpenPipeLine / Apache Tika Какой из них лучше? Каковы...

Riz / 07 декабря 2011
1 голос
1 ответ

Я пытался настроить Nutch с помощью Solr, но получаю следующее исключение Сборщик: в свойстве 'http

Wasif Altaf / 06 декабря 2011
2 голосов
1 ответ

Мне нужно получить фрагменты из документов, в которых сопоставляются условия запроса, чтобы иметь...

Michael / 02 декабря 2011
1 голос
1 ответ

Я использую Solr + Nutch и мне нужно получить фрагмент каждого результата. Я попытался установить...

Michael / 29 ноября 2011
0 голосов
1 ответ

Я использую следующую команду для сканирования одной страницы с 788 ссылками: nutch crawl urls/...

mhdwrk / 28 ноября 2011
1 голос
1 ответ

Я читал на сайтах, которые извлекают ссылки из всех ссылок, относящихся к topN.У меня есть 4 ссылки...

helen / 22 ноября 2011
0 голосов
1 ответ

Я пытаюсь разработать функцию поиска, в которой я ввожу название города, и оно дает мне погодные...

Shaggy / 18 ноября 2011
0 голосов
1 ответ

Я ползаю сайты в нутче 1.3. теперь я хочу удалить URL из crawldb, как я могу это сделать? как я...

helen / 14 ноября 2011
2 голосов
1 ответ

Я использую nutch1.3 для сканирования какой-либо веб-страницы и solr для создания каждого индекса....

tiagop85 / 12 ноября 2011
3 голосов
3 ответов

Я просто пытаюсь сбросить свои сегменты из сканирования, используя readseg. Если у меня есть только...

chrstahl89 / 01 ноября 2011
1 голос
1 ответ

Мне нужно, чтобы Nutch разбивал веб-страницы на предложения при сохранении результатов сканирования

Michael / 31 октября 2011
2 голосов
1 ответ

Используя Nutch, я хотел бы отсканировать все http://www.amazon.com/ веб-страницы с ipod в URL....

Zenvega / 29 октября 2011
2 голосов
2 ответов

Привет, я установил solr и nutch в Ubuntu.Я могу сканировать и индексировать время от времени, но...

Zenvega / 28 октября 2011
2 голосов
1 ответ

Я пытаюсь заставить работать Nutch 1.3 и Solr 3.1. Примечание. Я использую Windows и у меня...

Mike Barlotta / 24 октября 2011
2 голосов
1 ответ

Я установил re_crawler для загрузки сайта каждый день. но это сайт 3 раза. какое свойство я должен...

mina / 24 октября 2011
0 голосов
2 ответов

У меня много сайтов; Содержание некоторых меняется каждый месяц, а содержание некоторых меняется...

mina / 19 октября 2011
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...