Блоки данных - читать и обрабатывать файлы параллельно - PullRequest
0 голосов
/ 30 апреля 2019

У меня есть около 500 файлов в dbfs с ответом json. Я хотел бы обрабатывать их параллельно и классифицировать вывод в отдельных файлах. Каков наилучший подход?

Я пытался использовать sc.parallize без особого успеха. Вот мой пример кода -

all_files = [file-1, file-2, .......]
processRDD = sc.parallelize(all_files)
processRDD.map(print_name).collect()

def print_name(fn)
    return fn

Я ожидаю увидеть список имен файлов? Я этого не вижу Есть комментарии?

...