Загрузка данных Json в hbase с использованием pyspark - PullRequest
0 голосов
/ 23 мая 2018

Я хотел загрузить данные в таблицу Hbase с помощью pyspark. Может ли кто-нибудь помочь, как загрузить данные json в Hbase так же медленно, как rowkey, как и все остальные, в одно семейство столбцов.Пожалуйста, найдите json ниже.

{"ticid": "1496", "ticlocation": "vizag", "custnum": "222", "Comments": {"comment": [{"commentno":" 1 "," desc ":" travel "," passengerseat ": {" intele ":" 09 "}," passengerloc ": {" intele ":" s15 "}}, {" commentno ":" 5"," desc ":" food "," passengerseat ": {" intele ":" 09 "}," passengerloc ": {" intele ":" s15 "}}, {" commentno ":" 12 "," desc":" service "," passengerseat ": {" intele ":" 09 "}," passengerloc ": {" intele ":" s15 "}}]}," Rails ": {" Rail ": [{" Traino":" AP1545 "," startcity ":" vizag "," passengerseat ":" 5 "}, {" Traino ":" AP1555 "," startcity ":" HYD "," passengerseat ":" 15A "}]}}

1 Ответ

0 голосов
/ 25 мая 2018

Я предполагаю, что у вас нет ни одной строки для загрузки, кроме тысяч или миллионов строк?Я бы порекомендовал преобразовать ваши данные JSON в TSV (разделенные табуляцией), что довольно просто в Python и использовать функцию import-tsv из HBase. См. Также Импорт файла TSV в таблицу hbase

Искра не подходит для массовой загрузки HBase.

...