Как импала читает данные из авро - PullRequest
0 голосов
/ 16 января 2019

У меня есть требование для создания веб-интерфейса для запроса данных, хранящихся в файлах avro на hdfs.

Архитектура, которую мы бы хотели получить, - это внешний интерфейс с API-интерфейсом для запросов данных на основе отдыха.

Запросы могут искать любые столбцы в файлах avro, каждый файл avro может иметь размер 100 ГБ, а запросы могут охватывать несколько файлов в зависимости от диапазона дат и т. Д. *

Я искал различные варианты, такие как impala, kudu, hbase .... Я хотел бы знать, как лучше всего подойти к этому.

Одна мысль заключалась в том, чтобы импортировать данные avro в hbase, но это скопирует данные в hbase и будет стоить гораздо больше дискового пространства. Будет ли kudu лучшим выбором для поддержки подобных запросов.

Второй вариант - просто запросить файлы avro напрямую, но оказывается, что avro не поддерживает произвольный доступ.

Третий вариант запроса через impala, но создает ли impala свою собственную базу данных, такую ​​как hbase и kudu?

Мы всегда будем читать и никогда не записывать и не удалять данные.

Извиняюсь за перегруженный вопрос!

...