Динамическое разделение данных в APache Beam - PullRequest
0 голосов
/ 04 марта 2019

Я новичок в Apache Beam, я пытаюсь разделить мои файлы паркета, которые хранятся в моей HDFS, используя один из столбцов в моих данных.

В Apache Beam я могу выполнять разбиение, но оно статическое.Я использую Spark Runner в фоновом режиме, используя последний SDK Java луча.Я использую его для пакетной обработки.

Так же, как куст для каждого раздела, я хочу иметь каталог и хранить данные, так что это может быть далее обработано Hive.

...