У меня есть набор из 1500 .H5 файлов, которые я должен обработать и преобразовать в паркет.До сих пор я создал функцию, которая:
- Считывает файл H5 в pandas dataframe
- Преобразует его в искровой фрейм данных w /
spark.createDataFrame(df)
- Делаетнеобходимые обработки
- Сохраняет его на паркете
Но до сих пор я мог применять эту функцию только последовательно.Когда я пытаюсь использовать sc.parallelize()
, это выдает ошибку (из-за того, что я мог понять, проблема заключается в конвертации spark.createDataFrame(df)
внутри).
Каким должен быть наилучший подход к этому?Я использую блоки данных между прочим.