Потоковый каталог - это основной каталог, в котором есть несколько подкаталогов.
Я хочу добиться этой функциональности, используя потоковую передачу искры, которая посещает каждую подпапку и отлавливает оттуда файлы.
import os
rootdir = 'C:\user\Data_Sources'
for subdir, dirs, files in os.walk(rootdir):
for file in files:
temp = os.path.join(subdir, file)
Пока я это сделал, однако она работает только для 3 подпрограмм.только каталоги.Если я увеличу число '*' в соответствии с подкаталогами, то при потоковом воспроизведении с пламенной скоростью будут считываться файлы только в двух последних каталогах, а остальные предыдущие каталоги остаются непрочитанными.
df = spark.readStream.text('file:///home/user/stream1.0/*/*/*', wholetext=True)