Интеграция Hadoop с программным обеспечением для захвата документов - PullRequest
0 голосов
/ 26 сентября 2018

У нас есть требование отправлять документы в Hadoop (Hortonworks) из нашего программного обеспечения Image Capture: версия PDF для программного обеспечения Image Capture с метаданными.Я не имею большого представления о HDP.Существует ли какая-либо служба REST или какой-либо инструмент, который может добавлять документы в Hadoop, предоставляя документы с метаданными.

Пожалуйста, помогите

1 Ответ

0 голосов
/ 27 сентября 2018

Hadoop HDFS имеет как WebHDFS, так и NFSGateway

Однако, как правило, рекомендуется не просто сохранять исходные данные непосредственно в HDFS, если вы лучше контролируете, как эти данные туда попадают.Таким образом, вы сможете лучше контролировать, где и как записываются данные.

Например, вы можете использовать процессоры Apache Nifi, чтобы запустить процессор ListenHTTP, прочитать данные документа, проанализировать их, отфильтровать и обогатить, а затем вы можете дополнительно записать в HDFS или во многие другие места назначения.

...