Присоединяйтесь к 270 столбцам в PySpark - PullRequest
0 голосов
/ 03 октября 2019

Я столкнулся с проблемой при объединении большого количества столбцов.

У меня 270 выходов данных с той же схемой данных. И 270 выходов должны быть объединены в одну большую таблицу, есть ли способ оптимизировать объединение? Это стоит много времени сейчас.

В настоящее время мы используем A.join(B,'userid'). Спасибо. Стол, как этот

1 Ответ

0 голосов
/ 03 октября 2019

Вы можете использовать unionAll .

from functools import reduce
from pyspark.sql import DataFrame

dfs = [df1,df2,df3]
df = reduce(DataFrame.unionAll, dfs)

Вы можете использовать unionByName , если оно лучше соответствует вашим целям. Пожалуйста, прочитайте документацию и подтвердите.

Примечание. Порядок столбцов в кадрах данных должен быть одинаковым, чтобы это работало. Это может привести к неожиданным результатам, если у вас нет правильных порядков столбцов !!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...