Можно ли построить интерфейс REST для запроса данных HDFS? - PullRequest
0 голосов
/ 29 ноября 2018

В настоящее время мы выполняем различные преобразования в наши кластеры HDFS.Будучи новичком в стеке, мне сказали, что преобразованные данные хранятся в двоичном формате в форме контейнеров.

В настоящий момент единственный способ запросить эти данные - использовать интенсивную команду через интерфейс командной строки.

Мой вопрос: возможно ли создать интерфейс RESTful для поиска данных в этих контейнерах??Дешифрованные данные представлены в формате JSON.

Причина, по которой я это делаю, заключается в масштабировании тестирования - если я могу извлечь данные в читабельном, разбираемом формате (в отличие от двоичного), я могу создать автоматические приемы тестирования, которыеможет запускаться на основе обновлений.Затем можно легко проверить изменения по источнику.

1 Ответ

0 голосов
/ 30 ноября 2018

Все что угодно возможно

"В форме контейнеров" очень неясно.«Контейнеры» означают множество вещей - контейнеры YARN, контейнеры Docker и т. Д. *

В первую очередь стоит попробовать Hive, PrestoDB или Livy (Spark).С каждым из них будет проще создать запрос через REST API.

В качестве альтернативы, вместо запуска сканирования файловой системы, вы можете хранить данные по-другому.Например, HBase или Accumulo или Ignite.

Однако, если вы хотите действительно быстрый поиск, вам действительно нужно проиндексировать указанные данные.Solr или Elasticsearch - два популярных варианта, оба из которых предоставляют REST API для поиска данных в явном виде

...