Я работаю над pyspark (Spark 2.2.0) с двумя фреймами данных, которые имеют общие столбцы.Требование, с которым я имею дело, заключается в следующем: соедините 2 кадра в соответствии с приведенным ниже правилом.
frame1 = [Столбец 1, Столбец 2, Столбец 3 ....... column_n] ### dataframe
frame2 = [Столбец 1, Столбец 2, Столбец 3 ....... column_n] ### dataframe
key = [Столбец 1, Столбец 2] ### - это массив
If frame1.[Column1, column2] == frame1.[Column1, column2]
if frame1.column_n == frame2.column_n
write to a new data frame DF_A using values from frame 2 as is
if frame1.column_n != frame2.column_n
write to a new data frame DF_A using values from frame 1 as is
write to a new data frame DF_B using values from frame 2 but with column3, & column 5 hard coded values
Для этого я сначала создаю 2 временных представления и динамически создаю 3 SQL.
sql_1 = select frame1.* from frame1 join frame2 on [frame1.keys] = [frame2.keys]
where frame1.column_n=frame2.column_n
DFA = sqlContext.sql(sql_1)
sql_2 = select [all columns from frame1] from frame1 join frame2 on [frame1.keys] = [frame2.keys]
where frame1.column_n != frame2.column_n
DF_A = DF_A.union(sqlContext.sql(sql_2))
sql_3 = select [all columns from frame2 except for column3 & column5 to be hard coded] from frame1 join frame2 on [frame1.keys] = [frame2.keys]
where frame1.column_n != frame2.column_n
DF_B = sqlContext.sql(sql_1)
Вопрос1: есть ли лучший способ динамически передавать ключевые столбцы для объединения?В настоящее время я делаю это, поддерживая ключевые столбцы в массивах (работает) и создавая SQL.
Вопрос2: есть ли лучший способ динамически передавать столбцы выбора без изменения последовательности столбцов?В настоящее время я делаю это, поддерживая имена столбцов в массиве и выполняя конкатенацию.
Я рассматривал один единственный вариант полного внешнего соединения, но, поскольку имена столбцов совпадают, я подумал, что у него будет больше накладных расходов на переименование.