У меня есть многоузловой кластер, работающий в UEC (корпоративное облако Ubuntu), и я подумал, что...
Как я могу дать команду Nutch обрабатывать страницу № 1 как принадлежащую ядру, а страницу № 2 как...
Что я могу сделать с Hadoop и Nutch, используемыми в качестве поисковой системы?Я знаю, что Nutch...
Я пытаюсь прочитать данные содержимого в папке сегмента. Я думаю, что файл данных контента написан...
При использовании поискового устройства поиска задания выборки создаются таким образом, что...
Я использую Nutch 1.3 для сканирования сайта.Я хочу получить список просканированных URL-адресов и...
После долгих поисков, кажется, нет никакого прямого объяснения того, как использовать Nutch 1.3 с...
Сцена: Я проиндексировал многие сайты, используя Nutch и Solr.Я реализовал группировку результатов...
Я прочитал источник org.apache.nutch.parse.ParseUtil.runParser(Parser p, Content content). Делают...
Я пытаюсь оценить, являются ли Nutch / Solr / Hadoop подходящими технологиями для моей задачи. PS:...
У меня есть Nutch / Hadoop с 2-х серверов datanode. Я пытаюсь сканировать некоторые URL-адреса, но...
Я добавляю следующие изменения в solr-index maping.xml и добавляю соответствующее поле в solr...
Когда я прихожу к следующему пункту ореха HttpBase.java, я не знаю, что означает символ "#" в...
Я хочу написать программу с Java и NUTCH 1,3 API для сканирования сайтов Я искал в Интернете, но...
Я новичок в Nutch и Hadoop и пытаюсь следовать этому уроку здесь http://wiki.apache
Привет, я пытаюсь запустить Apache Nutch 1.2 на EMR Amazon. Для этого я указываю входной каталог из...
Я хотел бы знать, как заставить Nutch сканировать не только указанный мной домен, но и путь dir...
У меня на жестком диске много HTML-файлов, и я хочу проиндексировать их с помощью Nutch, но, как я...
Я пытаюсь добавить новый язык к инструменту автоматического определения языка Apache's tika....
Я новичок в Nutch и не совсем уверен, что здесь происходит. Я запускаю Nutch, и он сканирует мой...
Я использую NUTCH-1.2, но не могу ограничить мой конфигурационный файл для сканирования только с...
Я использую Nutch и Solr для индексации общего файлового ресурса. Первый выпуск: URL сканирования...
Извините, если этот вопрос может быть слишком общим. Я был бы счастлив с хорошими ссылками на...
Мне нужно изменить строку user-agent для каждого просканированного домена.Я использую стандартный...
Я только что настроил Nutch и Solr для успешного сканирования и индексирования текста на веб-сайте,...