pyspark обрабатывает и сравнивает 2 кадра - PullRequest
0 голосов
/ 14 сентября 2018

Я работаю над pyspark (Spark 2.2.0) с двумя фреймами данных, которые имеют общие столбцы.Требование, с которым я имею дело, заключается в следующем: соедините 2 кадра в соответствии с приведенным ниже правилом.

frame1 = [Столбец 1, Столбец 2, Столбец 3 ....... column_n] ### dataframe

frame2 = [Столбец 1, Столбец 2, Столбец 3 ....... column_n] ### dataframe

key = [Столбец 1, Столбец 2] ### - это массив

If frame1.[Column1, column2] == frame1.[Column1, column2]

 if frame1.column_n ==  frame2.column_n 
   write to a new data frame DF_A using values from frame 2 as is

 if frame1.column_n !=  frame2.column_n
   write to a new data frame DF_A using values from frame 1 as is
   write to a new data frame DF_B using values from frame 2 but with column3, & column 5 hard coded values       

Для этого я сначала создаю 2 временных представления и динамически создаю 3 SQL.

  sql_1 = select frame1.* from  frame1 join frame2 on [frame1.keys] = [frame2.keys]
  where frame1.column_n=frame2.column_n
  DFA = sqlContext.sql(sql_1)

  sql_2 = select [all columns from frame1]  from  frame1 join frame2 on         [frame1.keys] = [frame2.keys]
  where frame1.column_n != frame2.column_n
  DF_A = DF_A.union(sqlContext.sql(sql_2))

  sql_3 = select [all columns from frame2 except for column3 & column5 to be hard coded] from  frame1 join frame2 on [frame1.keys] = [frame2.keys]
  where frame1.column_n != frame2.column_n
  DF_B = sqlContext.sql(sql_1)

Вопрос1: есть ли лучший способ динамически передавать ключевые столбцы для объединения?В настоящее время я делаю это, поддерживая ключевые столбцы в массивах (работает) и создавая SQL.

Вопрос2: есть ли лучший способ динамически передавать столбцы выбора без изменения последовательности столбцов?В настоящее время я делаю это, поддерживая имена столбцов в массиве и выполняя конкатенацию.

Я рассматривал один единственный вариант полного внешнего соединения, но, поскольку имена столбцов совпадают, я подумал, что у него будет больше накладных расходов на переименование.

1 Ответ

0 голосов
/ 24 сентября 2018

Для вопросов № 1 и № 2 я пошел с получением имен столбцов из схемы dataframe (df.schema.names и df.columns) и обработкой строк внутри цикла.

Для логики я выбрал минимум 2 SQL - один с полным внешним объединением.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...