Pyspark - Как оставить фреймы данных слияния - PullRequest
0 голосов
/ 29 мая 2020

В Pandas я могу объединить два фрейма данных следующим образом:

df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [5, 6, 7, 8]})

df1.merge(df2, how='left', left_on='lkey', right_on='rkey')


  lkey  value_x rkey  value_y
0  foo        1  foo        5
1  foo        1  foo        8
2  bar        2  bar        6
3  baz        3  baz        7
4  foo        5  foo        5
5  foo        5  foo        8

Что будет эквивалентом этого в pyspark? Левое соединение?

1 Ответ

1 голос
/ 29 мая 2020

Вы можете подать заявку на вступление в pyspark как

df = df1.join(df2, df1.lkey==df2.rkey, 'left_outer')
...