Question

У меня есть около 500 файлов в dbfs с ответом json. Я хотел бы обрабатывать их параллельно и классифицировать вывод в отдельных файлах. Каков наилучший подход?

Я пытался использовать sc.parallize без особого успеха. Вот мой пример кода -

all_files = [file-1, file-2, .......]
processRDD = sc.parallelize(all_files)
processRDD.map(print_name).collect()

def print_name(fn)
    return fn

Я ожидаю увидеть список имен файлов? Я этого не вижу Есть комментарии?

Блоки данных - читать и обрабатывать файлы параллельно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Блоки данных - читать и обрабатывать файлы параллельно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы