У нас есть некоторые исторические данные, поставленные в очередь по нашим темам, мы не хотим обрабатывать все эти данные в одном пакете, так как это сложнее сделать (и, если это не удастся, оно должно начаться снова!).
Кроме того, знание того, как контролировать размер пакета, было бы весьма полезно при настройке заданий.
При использовании DStreams
способ контролировать размер пакета как можно точнее - Limit Kafkaразмер пакетов при использовании Spark Streaming
Тот же подход, т. е. установка maxRatePerPartition
, а затем настройка batchDuration
, чрезвычайно громоздка, но работает с DStream
, но не работает со структурированной потоковой передачей.
В идеале я хотел бы знать о конфигурации, такой как maxBatchSize
и minBatchSize
, где я могу просто установить количество записей, которое я хочу.