Question

Я столкнулся с проблемой при объединении большого количества столбцов.

У меня 270 выходов данных с той же схемой данных. И 270 выходов должны быть объединены в одну большую таблицу, есть ли способ оптимизировать объединение? Это стоит много времени сейчас.

В настоящее время мы используем A.join(B,'userid'). Спасибо. Стол, как этот

pissall · Answer 1 · 03 октября 2019

Вы можете использовать unionAll .

from functools import reduce
from pyspark.sql import DataFrame

dfs = [df1,df2,df3]
df = reduce(DataFrame.unionAll, dfs)

Вы можете использовать unionByName , если оно лучше соответствует вашим целям. Пожалуйста, прочитайте документацию и подтвердите.

Примечание. Порядок столбцов в кадрах данных должен быть одинаковым, чтобы это работало. Это может привести к неожиданным результатам, если у вас нет правильных порядков столбцов !!

Присоединяйтесь к 270 столбцам в PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Присоединяйтесь к 270 столбцам в PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов