Может ли NiFi - SelectHiveQL считывать данные из таблицы на кластере CDH в формате паркета? - PullRequest
0 голосов
/ 24 октября 2018

У меня есть случай, когда мне нужно переместить данные из внутреннего кластера CDH в кластер AWS EMR.Я подумываю настроить NiFi на экземпляре AWS EC2, чтобы переместить данные из внутреннего кластера в хранилище AWS s3.

Все мои таблицы на кластере CDH хранятся в формате паркета.

Вопрос № 1: Есть ли у нас поддержка в NiFi, которая позволяет читать таблицы в формате паркета ??

ИЛИ

Единственный вариант, который у меня есть, - это читать данные напрямуюиз каталога hdfs и поместите его на s3, а затем создайте таблицу кустов в EMR?

Вопрос № 2: Как Nifi определяет новые данные, вставленные в таблицу, и считывает новые данные.В моем случае все таблицы разделены на ггггмм.

1 Ответ

0 голосов
/ 24 октября 2018

Если вы используете SelectHiveQL, он может читать все, что умеет Hive (включая Parquet), все преобразования выполняются в Hive и возвращаются через драйвер JDBC в качестве ResultSet, так что вы получите данные как Avro или CSV.В зависимости от того, что вы указали в качестве свойства «Формат вывода» в SelectHiveQL.

Сказав это, вашему CDH потребуется версия Hive по крайней мере 1.2.1, я видел довольно много вопросов о совместимости, когда CDH имеетHive 1.1.x, который NiFi не поддерживает с процессорами Hive.Для этого вам понадобится что-то вроде драйвера JDBC Simba (не JDBC-драйвер Apache Hive, он не реализует все необходимые методы JDBC), и вы можете использовать ExecuteSQL и другие процессоры SQL с драйвером JDBC.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...