Распараллеливание преобразования h5 в паркет - PullRequest
0 голосов
/ 10 октября 2018

У меня есть набор из 1500 .H5 файлов, которые я должен обработать и преобразовать в паркет.До сих пор я создал функцию, которая:

  • Считывает файл H5 в pandas dataframe
  • Преобразует его в искровой фрейм данных w / spark.createDataFrame(df)
  • Делаетнеобходимые обработки
  • Сохраняет его на паркете

Но до сих пор я мог применять эту функцию только последовательно.Когда я пытаюсь использовать sc.parallelize(), это выдает ошибку (из-за того, что я мог понять, проблема заключается в конвертации spark.createDataFrame(df) внутри).

Каким должен быть наилучший подход к этому?Я использую блоки данных между прочим.

...