Я работаю над структурированной потоковой передачей искр с существующим многоуровневым многораздельным паркетным файлом в качестве источника. При его использовании возникла следующая проблема.
Запуск задания потоковой передачи для чтения данных из определенного раздела вместо начала с начала.
Предположим, мы заметили, что существует проблема с качеством данных в году раздела =2018 / месяц = 10 / час = 10. Теперь предположим, что я исправил эти данные до даты, заменив правильные файлы.
Теперь Вопрос в том, как обработать данные, начиная с этого дня, а не с начала? Поскольку в структурированной потоковой передаче, скажем, я использую поток файлов в качестве источника, который будет загружать все файлы, я хочу игнорировать несколько файлов. Здесь я должен удалить свой каталог контрольных точек, так как он имеет смещение до даты.