Как использовать Spark Streaming для получения данных из таблицы HBASE с использованием Scala - PullRequest
0 голосов
/ 11 декабря 2018

Я пытаюсь найти решение для чтения данных из таблицы HBASE с использованием потоковой передачи с искрой и записи данных в другую таблицу HBASE.

В Интернете я нашел множество примеров, в которых предлагается создать DSTREAM для получения данных.из файлов HDFS и всего. Но я не смог найти никаких примеров, чтобы получить данные из таблиц HBASE

Например, если у меня есть таблица HBASE 'SAMPLE' со столбцами как 'name' и 'activeStatus'.Как я могу получить данные из таблицы SAMPLE на основе столбца activeStatus с использованием потоковой передачи с искрой (Новые данные?

Любые примеры получения данных из таблицы HBASE с использованием потоковой передачи с зажиганием приветствуются.

С уважением,Адарш КС

Ответы [ 2 ]

0 голосов
/ 14 декабря 2018

Вы можете подключиться к hbase от spark несколькими способами

Hortonworks SHC считывает hbase непосредственно в фрейм данных, используя пользовательский каталог, тогда как hbase-rdd читает его как rdd и может быть преобразован в DF с использованием метода toDF.hbase-rdd имеет опцию массовой записи (прямая запись HFiles), предпочитаемая для массивной записи данных.

0 голосов
/ 14 декабря 2018

Вам нужна библиотека, которая позволяет spark взаимодействовать с hbase.Horton Works 'shc является таким расширением:

https://github.com/hortonworks-spark/shc

...