PySpark Удаление столбцов после объединения - PullRequest
0 голосов
/ 03 января 2019

У меня есть следующий код:

a = df.alias('a')
b = dfDates.alias('b')
cond = [a.adjTransactionDate == b.TransactionDate, a.GroupByFld == b.GroupByFld]
c= b.join(a, cond, 'left')

c=c.drop('adjTransactionDate','a.GroupByFld')

Я обнаружил, что последняя строка удаляет поле даты 'adjTransaction из набора данных, но GroupBYFld остается.

Если я просто сделаю это:

c=c.drop('adjTransactionDate','GroupByFld')

Затем оба объекта GroupByFld удаляются из набора данных.

Как удалить только объект GroupByFld, принадлежащий источнику A?

1 Ответ

0 голосов
/ 03 января 2019

Не смог выяснить проблему, но в итоге сделал это вместо:

a = df.alias('a')
b = dfDates.alias('b')
cond = [a.adjTransactionDate == b.TransactionDate, a.GroupByFld == b.GroupByFld]
c= b.join(a, cond, 'left').select(b.TransactionDate, b.GroupByFld,a.Amount)
c.show()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...