Я начинаю использовать потоковую структурированную искру.
Я получаю readStream из темы kafka (startOffset: latest) с waterMark, группирую по времени события с продолжительностью окна и пишу в тему kafka.
У меня вопрос: как я могу обработать данные, записанные в теме kafka перед заданием структурированного потокового вещания с помощью spark?
Сначала я попытался запустить с помощью `startOffset: ранние версии '.но данные в теме kafka слишком велики, поэтому процесс потоковой передачи не запускается из-за истечения времени ожидания пряжи.(хотя я увеличиваю значение тайм-аута)
1.Если я просто создаю пакетное задание и фильтрую по конкретному диапазону данных.результат не отражается в текущем состоянии искрового потока, кажется, есть проблема с согласованностью и точностью результата.
Я пытался сбросить каталог контрольных точек, но он не работал.
Как я могу обработать старые и большие данные?Помоги мне.