Я создал решение для структурированной потоковой передачи для чтения из FileSource и записи в Solr Sink (используя ForeachWriter). Требовалось загрузить только 1. последние x дней исторических данных и продолжить потоковую передачу 2. загрузить диапазон дат данных (в случае любых сбоев)
Данные в hdfs разделяются как источник / путь/ dt = гггг-мм-дд /
DataFrameReader поддерживает load () с разделенным запятыми списком путей, в то время как DataStreamReader поддерживает только одну строку. Он поддерживает glob, который не помогает нашему сценарию.
Может кто-нибудь объяснить мне, почему?
Я пытаюсь добиться пакетной обработки (для исторических данных) и потоковой передачи и того и другого через одну и ту же программу. Если есть какая-либо конфигурация, которая может помочь, кто-нибудь может предложить