Вопросы с тегом nutch - PullRequest

Вопросы с тегом nutch

0 голосов
0 ответов

У меня есть многоузловой кластер, работающий в UEC (корпоративное облако Ubuntu), и я подумал, что...

Pavan / 13 октября 2011
3 голосов
1 ответ

Как я могу дать команду Nutch обрабатывать страницу № 1 как принадлежащую ядру, а страницу № 2 как...

Virgiliu Braescu / 11 октября 2011
0 голосов
1 ответ

Что я могу сделать с Hadoop и Nutch, используемыми в качестве поисковой системы?Я знаю, что Nutch...

Pavan / 27 сентября 2011
1 голос
2 ответов

Я пытаюсь прочитать данные содержимого в папке сегмента. Я думаю, что файл данных контента написан...

surajz / 22 сентября 2011
2 голосов
1 ответ

При использовании поискового устройства поиска задания выборки создаются таким образом, что...

Varshith / 21 сентября 2011
10 голосов
2 ответов

Я использую Nutch 1.3 для сканирования сайта.Я хочу получить список просканированных URL-адресов и...

surajz / 15 сентября 2011
1 голос
3 ответов

После долгих поисков, кажется, нет никакого прямого объяснения того, как использовать Nutch 1.3 с...

Karl / 15 сентября 2011
1 голос
2 ответов

Сцена: Я проиндексировал многие сайты, используя Nutch и Solr.Я реализовал группировку результатов...

mlerley / 14 сентября 2011
2 голосов
2 ответов

Я прочитал источник org.apache.nutch.parse.ParseUtil.runParser(Parser p, Content content). Делают...

kaiwii ho / 14 сентября 2011
1 голос
1 ответ

Я пытаюсь оценить, являются ли Nutch / Solr / Hadoop подходящими технологиями для моей задачи. PS:...

buzzy2020 / 12 сентября 2011
1 голос
2 ответов

У меня есть Nutch / Hadoop с 2-х серверов datanode. Я пытаюсь сканировать некоторые URL-адреса, но...

Ste / 10 сентября 2011
0 голосов
1 ответ

Я добавляю следующие изменения в solr-index maping.xml и добавляю соответствующее поле в solr...

hadi / 09 сентября 2011
0 голосов
1 ответ

Когда я прихожу к следующему пункту ореха HttpBase.java, я не знаю, что означает символ "#" в...

kaiwii ho / 09 сентября 2011
1 голос
1 ответ

Я хочу написать программу с Java и NUTCH 1,3 API для сканирования сайтов Я искал в Интернете, но...

hadi / 02 сентября 2011
1 голос
1 ответ

Я новичок в Nutch и Hadoop и пытаюсь следовать этому уроку здесь http://wiki.apache

buzzy2020 / 01 сентября 2011
6 голосов
1 ответ

Привет, я пытаюсь запустить Apache Nutch 1.2 на EMR Amazon. Для этого я указываю входной каталог из...

Peter H / 30 августа 2011
2 голосов
1 ответ

Я хотел бы знать, как заставить Nutch сканировать не только указанный мной домен, но и путь dir...

Joyce / 22 августа 2011
1 голос
1 ответ

У меня на жестком диске много HTML-файлов, и я хочу проиндексировать их с помощью Nutch, но, как я...

Shahryar / 20 августа 2011
1 голос
1 ответ

Я пытаюсь добавить новый язык к инструменту автоматического определения языка Apache's tika....

user200340 / 18 августа 2011
0 голосов
3 ответов

Я новичок в Nutch и не совсем уверен, что здесь происходит. Я запускаю Nutch, и он сканирует мой...

Robbiegod / 13 августа 2011
0 голосов
1 ответ

Я использую NUTCH-1.2, но не могу ограничить мой конфигурационный файл для сканирования только с...

Shams / 12 августа 2011
2 голосов
2 ответов

Я использую Nutch и Solr для индексации общего файлового ресурса. Первый выпуск: URL сканирования...

Seth Griffin / 05 августа 2011
0 голосов
2 ответов

Извините, если этот вопрос может быть слишком общим. Я был бы счастлив с хорошими ссылками на...

Johan / 04 августа 2011
1 голос
1 ответ

Мне нужно изменить строку user-agent для каждого просканированного домена.Я использую стандартный...

user676042 / 31 июля 2011
1 голос
1 ответ

Я только что настроил Nutch и Solr для успешного сканирования и индексирования текста на веб-сайте,...

Johan / 29 июля 2011
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...