У нас был пакетный процесс для выполнения операции обновления / вставки с использованием S / Spark. Но теперь у нас есть вариант использования, чтобы сделать это более реальным Ниже приведены конфигурация и мой подход. Но это не работает.
Кафка отказоустойчив для сообщений для всех сообщений JSON
мы используем структурированную искровую потоковую передачу для потребления сообщений, а те сообщения, которые мы записываем в сегменты s3.
Вышеупомянутые операции обновления / вставки стоят дорого.
Сценарий заключается в том, что мы должны использовать эти сообщения Кафки с помощью структурированной потоковой передачи искры, но не сразу. Вопрос был в том, что опубликованные сообщения нам нужно собирать на основе окна, т.е. не сразу 10 минут.
Другими словами, каждые 10 минут приложению для потоковой передачи искры необходимо принимать сообщения от Kafka и записывать их в сегменты s3.
Я использовал операцию GROUP BY
на базовом фрейме данных (после прочтения сообщения от Kafka) для создания другого фрейма данных (df2). Но этот фрейм данных (df2 - фрейм сгруппированных данных) не может использовать дальнейшую обработку.
Возможно ли это сделать с использованием потоковой передачи с искровой структурой?