У меня есть требование для создания веб-интерфейса для запроса данных, хранящихся в файлах avro на hdfs.
Архитектура, которую мы бы хотели получить, - это внешний интерфейс с API-интерфейсом для запросов данных на основе отдыха.
Запросы могут искать любые столбцы в файлах avro, каждый файл avro может иметь размер 100 ГБ, а запросы могут охватывать несколько файлов в зависимости от диапазона дат и т. Д. *
Я искал различные варианты, такие как impala, kudu, hbase .... Я хотел бы знать, как лучше всего подойти к этому.
Одна мысль заключалась в том, чтобы импортировать данные avro в hbase, но это скопирует данные в hbase и будет стоить гораздо больше дискового пространства. Будет ли kudu лучшим выбором для поддержки подобных запросов.
Второй вариант - просто запросить файлы avro напрямую, но оказывается, что avro не поддерживает произвольный доступ.
Третий вариант запроса через impala, но создает ли impala свою собственную базу данных, такую как hbase и kudu?
Мы всегда будем читать и никогда не записывать и не удалять данные.
Извиняюсь за перегруженный вопрос!