Предоставьте учетные данные Nutch 1.x для индексирования данных обхода размещенной службе Elasticsearch - PullRequest
0 голосов
/ 05 сентября 2018

Я разрабатывал пользовательский интерфейс поиска для моего приложения с использованием компонентов ReactiveSearch и планирую использовать их размещенное решение ES. Однако у меня возникают проблемы с выяснением того, как установить в Nutch (v.1.14) данные для сканирования индекса на ES, размещенную на Appbaseio.

У меня все работает локально. Моя локальная установка Nutch сканирует и успешно индексирует мою локальную установку ES (v5.6) - это было здорово, чтобы начать работу и провести некоторое тестирование с компонентами ReactiveSearch.

Теперь я дошел до того, что мне нужно, чтобы Nutch проиндексировал данные сканирования для моей размещенной ES на Appbaseio. У них действительно есть REST api и конечная точка _bulk, однако для всех их конечных точек требуется мой $credentials для доступа к ES. Я попытался изменить мои локальные настройки в файле nutch-site.xml на эквиваленты Appbaseio (url, port, index), но безуспешно. Я думаю, это потому, что я не уверен, как дать Nutch $credentials для Appbaseio, чтобы он мог иметь доступ для чтения и записи к моему Appbaseio ES.

После нескольких попыток. Я попытался использовать Scrapy, потому что тогда я могу просто экспортировать данные в файл json и импортировать этот файл через панель инструментов. Однако Scrapy и Nutch предназначены для разных целей. Scrapy больше подходит для целенаправленных сканирований и сбора конкретной информации (цены, названия и т. Д.), Кажется немного медленнее, чем Nutch. Я не пытаюсь получить конкретную информацию и хочу сканировать более 1 сайта за раз. Было бы много работы, чтобы заставить Скрапи вести себя так, как Натч. Nutch разработан больше для того, чего я пытаюсь достичь, и в него уже интегрирована Elasticsearch.

Теперь мне просто нужно найти способ дать Натчу $credentials, чтобы индексировать данные сканирования для моего ES в Appbaseio.

...