Apache Nutch REST API для получения данных с сервера, на котором работает Nutch? - PullRequest
0 голосов
/ 11 марта 2020

Я использую NEST API REST для запуска поиска Nutch на отдельном сервере. Я хотел бы восстановить просканированные данные обратно на мой локальный компьютер. Есть ли способ, с помощью которого я могу использовать функциональность Nutch Dump для выгрузки данных и извлечения их через API, или мне лучше индексировать данные в Solr и получать их из Solr. Спасибо за вашу помощь.

1 Ответ

1 голос
/ 11 марта 2020

В настоящее время REST API не предоставляет такую ​​функциональность. Основной целью REST API является настройка и запуск ваших заданий на сканирование . По своей сути это позволит вам настроить конфигурацию нового задания на сканирование и управлять им (в некоторой степени).

Передача просканированных данных зависит от вас. При этом у меня есть пара рекомендаций:

  • Если вы отправляете данные в Solr / ES (или любой другой индексатор), я бы порекомендовал получать данные непосредственно оттуда. Как Solr, так и ES уже предоставляют REST API, с дополнительным преимуществом, которое вы можете отфильтровать, какие данные «копировать».

  • Если вы запускаете Nutch в распределенном режиме (то есть в Если бы oop cluster) попытался использовать библиотеки Had oop для копирования данных в место назначения.

Если ничего из этого не применимо, возможно, полагаясь на что-то еще, например rsync или что-то подобное стоит рассмотреть.

...