Присоединяйтесь в pyspark без дубликатов столбцов - PullRequest
0 голосов
/ 07 сентября 2018

Это ссылка на решение, данное в scala для потока [ Как избежать дублирования столбцов после объединения?

>> a.show
+---+----+
|key|val|
+---+----+
|  a|   1|
|  b|   2|
+---+----+

и

>>> b.show
+---+----+
|key|val|
+---+----+
|  a|   11|
+---+----+

Ожидаемый результат

>>> 
+---+----+
|key|val|
+---+----+
|  a|   1|
+---+----+

Так что мне нужно извлекать данные из фрейма данных «a», когда «key» совпадает как с «a», так и с «b»

Одно из решений, приведенных в scala - это работа, приведенная ниже

scala> a.join(b, a("key") === b("key"), "left").select(a.columns.map(a(_)) : _*).show

Из-за отсутствия знаний в scala я не могу реализовать это python. Пожалуйста, помогите мне исправить этот питон. Было бы желательно любое другое решение (без жесткого кодирования столбцов данных)

1 Ответ

0 голосов
/ 07 сентября 2018
val a = sc.parallelize(Seq(("a","1"),("b","2"))).toDF("key","value")
a.show

val b = sc.parallelize(Seq(("a","11"))).toDF("key","value")
b.show

a.join(b, a("key") === b("key"), "leftsemi").show

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...