Question

Это ссылка на решение, данное в scala для потока [ Как избежать дублирования столбцов после объединения?

>> a.show
+---+----+
|key|val|
+---+----+
|  a|   1|
|  b|   2|
+---+----+

и

>>> b.show
+---+----+
|key|val|
+---+----+
|  a|   11|
+---+----+

Ожидаемый результат

>>> 
+---+----+
|key|val|
+---+----+
|  a|   1|
+---+----+

Так что мне нужно извлекать данные из фрейма данных «a», когда «key» совпадает как с «a», так и с «b»

Одно из решений, приведенных в scala - это работа, приведенная ниже

scala> a.join(b, a("key") === b("key"), "left").select(a.columns.map(a(_)) : _*).show

Из-за отсутствия знаний в scala я не могу реализовать это python. Пожалуйста, помогите мне исправить этот питон. Было бы желательно любое другое решение (без жесткого кодирования столбцов данных)

Chandan Ray · Answer 1 · 07 сентября 2018

val a = sc.parallelize(Seq(("a","1"),("b","2"))).toDF("key","value")
a.show

val b = sc.parallelize(Seq(("a","11"))).toDF("key","value")
b.show

a.join(b, a("key") === b("key"), "leftsemi").show

Присоединяйтесь в pyspark без дубликатов столбцов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Присоединяйтесь в pyspark без дубликатов столбцов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов