Как оптимизировать 50 миллионов записей pyspark в датафрейме - PullRequest
0 голосов
/ 20 февраля 2019

Я должен обрабатывать миллионы данных еженедельно, поэтому написал функцию, а затем преобразовал ее в udf, чтобы 52 раза использовать одну и ту же функцию, используя цикл for, поскольку внутри функций произошло многократное слияние фреймов данных, это выдает ошибку,Предлагаем решить эту проблему

...