Question

Потоковый каталог - это основной каталог, в котором есть несколько подкаталогов.

Я хочу добиться этой функциональности, используя потоковую передачу искры, которая посещает каждую подпапку и отлавливает оттуда файлы.

import os
rootdir = 'C:\user\Data_Sources'

for subdir, dirs, files in os.walk(rootdir):
    for file in files:
        temp = os.path.join(subdir, file)

Пока я это сделал, однако она работает только для 3 подпрограмм.только каталоги.Если я увеличу число '*' в соответствии с подкаталогами, то при потоковом воспроизведении с пламенной скоростью будут считываться файлы только в двух последних каталогах, а остальные предыдущие каталоги остаются непрочитанными.

 df = spark.readStream.text('file:///home/user/stream1.0/*/*/*', wholetext=True)

Рекурсивное чтение файлов Spark Streaming

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Рекурсивное чтение файлов Spark Streaming

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов