Рекурсивное чтение файлов Spark Streaming - PullRequest
0 голосов
/ 03 апреля 2019

Потоковый каталог - это основной каталог, в котором есть несколько подкаталогов.

Я хочу добиться этой функциональности, используя потоковую передачу искры, которая посещает каждую подпапку и отлавливает оттуда файлы.

import os
rootdir = 'C:\user\Data_Sources'

for subdir, dirs, files in os.walk(rootdir):
    for file in files:
        temp = os.path.join(subdir, file)

Пока я это сделал, однако она работает только для 3 подпрограмм.только каталоги.Если я увеличу число '*' в соответствии с подкаталогами, то при потоковом воспроизведении с пламенной скоростью будут считываться файлы только в двух последних каталогах, а остальные предыдущие каталоги остаются непрочитанными.

 df = spark.readStream.text('file:///home/user/stream1.0/*/*/*', wholetext=True)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...