Агрегация и различия между двумя фреймами данных - Pyspark - PullRequest
0 голосов
/ 11 февраля 2020

Мой фрейм данных выглядит следующим образом:

DF1:

A    B    Value
0   abc   200
xyz  0     300

DF2:

A    B    Value
abc   0    400
0     xyz    500

Мне нужно вычислить разницу между двумя фреймами данных для значения ( колонка) Я использую функцию "coalesce" для получения идентификаторов

Значение ID ab c 200 xyz 300

аналогично для DF2

Нужна помощь в: 1) изменении / добавление имени столбца, который может содержать результаты от функции объединения. Попробовал ниже код: не работает, он дает мне нулевые значения

df1.select(coalesce(df1["A"],df1["B"]).alias("ID"))

Также я хочу отобразить как идентификатор, значение ab c 200

2) Как объединить эти два кадра данных на основе идентификатора, а затем вычесть значения в одном запросе и отобразить оба идентификатора в качестве идентификатора и разницу в виде нового столбца, называемого "diff"

Expected OUtput:

ID    Value
abc   200
xyz   200
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...