Проблемы с чтением существующих многоуровневых данных секционированных файлов с середины в Spark Structured Streaming - PullRequest
0 голосов
/ 14 октября 2019

Я работаю над структурированной потоковой передачей искр с существующим многоуровневым многораздельным паркетным файлом в качестве источника. При его использовании возникла следующая проблема.

Запуск задания потоковой передачи для чтения данных из определенного раздела вместо начала с начала.

Предположим, мы заметили, что существует проблема с качеством данных в году раздела =2018 / месяц = ​​10 / час = 10. Теперь предположим, что я исправил эти данные до даты, заменив правильные файлы.

Теперь Вопрос в том, как обработать данные, начиная с этого дня, а не с начала? Поскольку в структурированной потоковой передаче, скажем, я использую поток файлов в качестве источника, который будет загружать все файлы, я хочу игнорировать несколько файлов. Здесь я должен удалить свой каталог контрольных точек, так как он имеет смещение до даты.

1 Ответ

0 голосов
/ 15 октября 2019

Предположим, мы заметили, что существует проблема с качеством данных в разделе год = 2018 / месяц = ​​10 / час = 10. Тогда как обработать данные, начиная с этого дня, а не с начала?

Я не думаю, что это возможно в Spark Structured Streaming (жаль, что я ошибаюсь).

Поскольку мы говорим о потоковом запросе, вам нужно перемотать «поток». Единственный способ добиться этого (я могу придумать) - это повторно загрузить данные (понятия не имею, как это сделать) или просто обработать данные, которые «удалили бы» предыдущую версию раздела year=2018/month=10/hour=10, а затем загрузить новуюисправленная версия.

Вопрос в том, как сообщить источнику данных паркета, что все, что уже было обработано, должно быть "выселено" из результата (который, возможно, был отправлен во внешние источники для дальнейшей обработки).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...