Как оптимизировать 50 миллионов записей pyspark в датафрейме

Я должен обрабатывать миллионы данных еженедельно, поэтому написал функцию, а затем преобразовал ее в udf, чтобы 52 раза использовать одну и ту же функцию, используя цикл for, поскольку внутри функций произошло многократное слияние фреймов данных, это выдает ошибку,Предлагаем решить эту проблему

Как оптимизировать 50 миллионов записей pyspark в датафрейме

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как оптимизировать 50 миллионов записей pyspark в датафрейме

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы