Question

Я использую структурированную потоковую передачу Spark для чтения файлов, поступающих в мою систему, в определенную папку.

Я хочу выполнить запрос потоковой агрегации для данных и записывать результат в файлы Parquet каждый пакет, используя Режим добавления . Таким образом, Spark Structured Streaming выполняет частичную агрегацию внутри пакета, которая записывается на диск, и мы читаем из выходных файлов Parquet, используя таблицу Impala, которая указывает на выходной каталог. Поэтому мне нужно что-то вроде этого:

batch        aggregated_value
batch-1          10
batch-2           8
batch-3          17
batch-4          13

Мне на самом деле не нужен столбец пакета, но это помогает уточнить, что я пытаюсь сделать.

Предлагает ли структурированная потоковая передача способ добиться этого?

Как я могу добиться потоковой агрегации данных для пакета, используя Spark Structured Streaming?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как я могу добиться потоковой агрегации данных для пакета, используя Spark Structured Streaming?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы