Функция структурированного потокового файла Spark load () не поддерживает пути через запятую, а пакетная загрузка - - PullRequest
0 голосов
/ 03 октября 2019

Я создал решение для структурированной потоковой передачи для чтения из FileSource и записи в Solr Sink (используя ForeachWriter). Требовалось загрузить только 1. последние x дней исторических данных и продолжить потоковую передачу 2. загрузить диапазон дат данных (в случае любых сбоев)

Данные в hdfs разделяются как источник / путь/ dt = гггг-мм-дд /

DataFrameReader поддерживает load () с разделенным запятыми списком путей, в то время как DataStreamReader поддерживает только одну строку. Он поддерживает glob, который не помогает нашему сценарию.

Может кто-нибудь объяснить мне, почему?

Я пытаюсь добиться пакетной обработки (для исторических данных) и потоковой передачи и того и другого через одну и ту же программу. Если есть какая-либо конфигурация, которая может помочь, кто-нибудь может предложить

...