Я разрабатывал пользовательский интерфейс поиска для моего приложения с использованием компонентов ReactiveSearch и планирую использовать их размещенное решение ES. Однако у меня возникают проблемы с выяснением того, как установить в Nutch (v.1.14) данные для сканирования индекса на ES, размещенную на Appbaseio.
У меня все работает локально. Моя локальная установка Nutch сканирует и успешно индексирует мою локальную установку ES (v5.6) - это было здорово, чтобы начать работу и провести некоторое тестирование с компонентами ReactiveSearch.
Теперь я дошел до того, что мне нужно, чтобы Nutch проиндексировал данные сканирования для моей размещенной ES на Appbaseio. У них действительно есть REST api и конечная точка _bulk, однако для всех их конечных точек требуется мой $credentials
для доступа к ES. Я попытался изменить мои локальные настройки в файле nutch-site.xml на эквиваленты Appbaseio (url, port, index), но безуспешно. Я думаю, это потому, что я не уверен, как дать Nutch $credentials
для Appbaseio, чтобы он мог иметь доступ для чтения и записи к моему Appbaseio ES.
После нескольких попыток. Я попытался использовать Scrapy, потому что тогда я могу просто экспортировать данные в файл json и импортировать этот файл через панель инструментов. Однако Scrapy и Nutch предназначены для разных целей. Scrapy больше подходит для целенаправленных сканирований и сбора конкретной информации (цены, названия и т. Д.), Кажется немного медленнее, чем Nutch. Я не пытаюсь получить конкретную информацию и хочу сканировать более 1 сайта за раз. Было бы много работы, чтобы заставить Скрапи вести себя так, как Натч. Nutch разработан больше для того, чего я пытаюсь достичь, и в него уже интегрирована Elasticsearch.
Теперь мне просто нужно найти способ дать Натчу $credentials
, чтобы индексировать данные сканирования для моего ES в Appbaseio.