У меня есть около 500 файлов в dbfs с ответом json. Я хотел бы обрабатывать их параллельно и классифицировать вывод в отдельных файлах. Каков наилучший подход?
Я пытался использовать sc.parallize без особого успеха. Вот мой пример кода -
all_files = [file-1, file-2, .......]
processRDD = sc.parallelize(all_files)
processRDD.map(print_name).collect()
def print_name(fn)
return fn
Я ожидаю увидеть список имен файлов? Я этого не вижу
Есть комментарии?