Столбцы, которые являются дубликатами и не входят в условие соединения данных - Как удалить их в PySpark? - PullRequest
0 голосов
/ 06 марта 2019

У меня есть два кадра данных, которые имеют общие имена столбцов.

df1 -> ID, имя, адрес, отдел

df2 -> ID, имя, адрес, ядро ​​

После того, как я присоединяюсь к ним, я получаю дубликаты столбцов.

joinedDF = df1.join(df2,['ID'],"inner")
joinedDF.dtypes -> ID, Name, Address, Dept, Name, Address, Core

Как мне удалить дубликаты столбцов, которые не являются частью объединения? Я хочу взять только один из двух повторяющихся столбцов. Таким образом, желаемый результат будет -

joinedDF.dtypes -> ID, df1.Name, df2. Address, Dept, Core

1 Ответ

1 голос
/ 06 марта 2019

Если вы укажете условие соединения, используя имя столбца как String или Array, то это не приведет к дублированию столбцов, которые являются частью столбцов объединения (в вашем случае это один "идентификатор" столбца), но другие столбцы без объединения могут привести к дубликатам.

Поскольку у вас есть дубликаты столбцов, которые не являются частью объединения столбцов, просто выберите необходимые столбцы

joinedDF = df1.join(df2,['ID'],"inner").select(df1["ID"], df1["Name"], df2["Address"], df1["Dept"],df2["Core"])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...