Скажем, у меня есть DataFrame, как это.
[Row(case_number='5307793179', word_list=['n', 'b', 'c']),
Row(case_number='5307793171', word_list=['w', 'e', 'c']),
Row(case_number='5307793172', word_list=['1', 'f', 'c']),
Row(case_number='5307793173', word_list=['a', 'k', 'c']),
Row(case_number='5307793174', word_list=['z', 'l', 'c']),
Row(case_number='5307793175', word_list=['b', 'r', 'c'])]
И список главных слов, подобный этому:
master_word_list = ['b', 'c']
Есть ли удобный способ фильтрации word_list по master_word_list, чтобы результирующий фрейм данных pyspark выглядел следующим образом.(Под гладким я подразумеваю без использования UDF, если бы UDF были лучшим / единственным способом, я бы также принял это как решение)
[Row(case_number='5307793179', word_list=['b', 'c']),
Row(case_number='5307793171', word_list=['c']),
Row(case_number='5307793172', word_list=['c']),
Row(case_number='5307793173', word_list=['c']),
Row(case_number='5307793174', word_list=['c']),
Row(case_number='5307793175', word_list=['b', 'c'])]