Я использую структурированную потоковую передачу Spark для чтения файлов, поступающих в мою систему, в определенную папку.
Я хочу выполнить запрос потоковой агрегации для данных и записывать результат в файлы Parquet каждый пакет, используя Режим добавления . Таким образом, Spark Structured Streaming выполняет частичную агрегацию внутри пакета, которая записывается на диск, и мы читаем из выходных файлов Parquet, используя таблицу Impala, которая указывает на выходной каталог.
Поэтому мне нужно что-то вроде этого:
batch aggregated_value
batch-1 10
batch-2 8
batch-3 17
batch-4 13
Мне на самом деле не нужен столбец пакета, но это помогает уточнить, что я пытаюсь сделать.
Предлагает ли структурированная потоковая передача способ добиться этого?