Фильтр Pyspark с колонкой из другого кадра данных - PullRequest
0 голосов
/ 26 июня 2019

Я бы хотел отфильтровать Id от цены, если таковой существует в фрейме данных событий. Мой код ниже, но он не работает в pyspark. Как я собираюсь это исправить?

events = spark.createDataFrame([(657,'Conferences'),
                          (765, 'Seminars '),
                          (776, 'Meetings'),
                          (879, 'Conferences'),
                          (765, 'Meetings'),
                          (879, 'Seminars'),
                          (985, 'Meetings'),
                          (879, 'Meetings'),
                          (657, 'Seminars'),
                          (657,'Conferences')]
                         ,['Id', 'event_name'])
events.show()
price = spark.createDataFrame([(657,10),
                          (879,45),
                          (776,54),
                          (879,45),
                          (765, 65)]
                         ,['Id','Price'])


price[price.Id.isin(events.Id)].show()

1 Ответ

0 голосов
/ 26 июня 2019

Простое объединение получит только цены на идентификаторы, представленные в таблице событий

events.join(price, "Id").select("Id", "Price").distinct().show()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...