Как я могу добиться потоковой агрегации данных для пакета, используя Spark Structured Streaming? - PullRequest
0 голосов
/ 22 января 2019

Я использую структурированную потоковую передачу Spark для чтения файлов, поступающих в мою систему, в определенную папку.

Я хочу выполнить запрос потоковой агрегации для данных и записывать результат в файлы Parquet каждый пакет, используя Режим добавления . Таким образом, Spark Structured Streaming выполняет частичную агрегацию внутри пакета, которая записывается на диск, и мы читаем из выходных файлов Parquet, используя таблицу Impala, которая указывает на выходной каталог. Поэтому мне нужно что-то вроде этого:

batch        aggregated_value
batch-1          10
batch-2           8
batch-3          17
batch-4          13

Мне на самом деле не нужен столбец пакета, но это помогает уточнить, что я пытаюсь сделать.

Предлагает ли структурированная потоковая передача способ добиться этого?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...