Получать данные из подключений JDBC к Hive: обработка двоичных столбцов - PullRequest
0 голосов
/ 27 августа 2018

На следующей диаграмме показан упрощенный поток загрузки, который мы создаем для загрузки данных из разных RDBS в Hive.

Шаг 1 : при использовании соединения JDBC с источником данных исходные данные передаются в потоковом режимеи сохранен в файле CSV на HDFS с использованием HDFS Java API.По сути, выполните запрос SELECT *, и каждая строка сохраняется в CSV, пока ResultSet не будет исчерпан.

Шаг 2 : с помощью команды LOAD DATA INPATH таблица Hive заполняется с помощью файла CSV, созданного на шаге 1.

Мы используем JDBC ResultSet.getString () для полученияданные столбца.Это прекрасно работает для недвоичных данных.

Но для столбцов типа BLOC, типа CLOB мы не можем записать данные столбца в текстовый / CSV-файл.

Мой вопрос: возможно ли использовать OCR илиAVRO формат для обработки двоичных столбцов?Поддерживают ли эти форматы запись построчно?

(Обновление: мы знаем о технологиях Sqoop / Nifi..etc, причина для реализации нашего пользовательского потока приема выходит за рамки этого вопроса)

enter image description here

...