Question

У меня есть набор из 1500 .H5 файлов, которые я должен обработать и преобразовать в паркет.До сих пор я создал функцию, которая:

Считывает файл H5 в pandas dataframe
Преобразует его в искровой фрейм данных w / spark.createDataFrame(df)
Делаетнеобходимые обработки
Сохраняет его на паркете

Но до сих пор я мог применять эту функцию только последовательно.Когда я пытаюсь использовать sc.parallelize(), это выдает ошибку (из-за того, что я мог понять, проблема заключается в конвертации spark.createDataFrame(df) внутри).

Каким должен быть наилучший подход к этому?Я использую блоки данных между прочим.

Распараллеливание преобразования h5 в паркет

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Распараллеливание преобразования h5 в паркет

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы