Question

Я работаю над структурированной потоковой передачей искр с существующим многоуровневым многораздельным паркетным файлом в качестве источника. При его использовании возникла следующая проблема.

Запуск задания потоковой передачи для чтения данных из определенного раздела вместо начала с начала.

Предположим, мы заметили, что существует проблема с качеством данных в году раздела =2018 / месяц = 10 / час = 10. Теперь предположим, что я исправил эти данные до даты, заменив правильные файлы.

Теперь Вопрос в том, как обработать данные, начиная с этого дня, а не с начала? Поскольку в структурированной потоковой передаче, скажем, я использую поток файлов в качестве источника, который будет загружать все файлы, я хочу игнорировать несколько файлов. Здесь я должен удалить свой каталог контрольных точек, так как он имеет смещение до даты.

Jacek Laskowski · Answer 1 · 15 октября 2019

Предположим, мы заметили, что существует проблема с качеством данных в разделе год = 2018 / месяц = 10 / час = 10. Тогда как обработать данные, начиная с этого дня, а не с начала?

Я не думаю, что это возможно в Spark Structured Streaming (жаль, что я ошибаюсь).

Поскольку мы говорим о потоковом запросе, вам нужно перемотать «поток». Единственный способ добиться этого (я могу придумать) - это повторно загрузить данные (понятия не имею, как это сделать) или просто обработать данные, которые «удалили бы» предыдущую версию раздела year=2018/month=10/hour=10, а затем загрузить новуюисправленная версия.

Вопрос в том, как сообщить источнику данных паркета, что все, что уже было обработано, должно быть "выселено" из результата (который, возможно, был отправлен во внешние источники для дальнейшей обработки).

Проблемы с чтением существующих многоуровневых данных секционированных файлов с середины в Spark Structured Streaming

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Проблемы с чтением существующих многоуровневых данных секционированных файлов с середины в Spark Structured Streaming

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы