Я недавно начал с PySpark, поэтому я начинающий.То, что я хочу сделать, это отфильтровать один фрейм данных на основе другого фрейма данных.Проще говоря, у меня есть df1 со столбцами A, B, C и df2 со столбцом A. Я хочу вывести только строки df1, которые имеют значения столбца в пределах значений df2.
В настоящее время он настроен какследующее:
df_final = df1.join(df2, df2.A == df1.A)
То, что я нашел в Интернете, также является следующим решением:
df_final = df1.join(df2, Seq("A"), "left_anti")
Кажется, что это делает то же самое, но мне интересно, какое из них более правильное / лучше работает?
В то же время я обнаружил, что можно использовать .filter
, но я понятия не имею, как его использовать, датафрейм / список.
На самом деле главный вопрос - что лучшеспособ выполнить эту задачу, чтобы запустить работу как можно быстрее?
Спасибо и наилучшими пожеланиями