Я загрузил текстовый файл и применил преобразование (фильтр), но не получил ожидаемый результат .code и результат ниже
stopwords = ['MP','UP'] 2 rdd3 = ARDD.filter(lambda x: x not in stopwords) 3 rdd3.take(10) (2) Spark Jobs Out[22]: ['MP , rajasthan, UP , Kashmir , delhi , haryana , punjab ']
Ваша проблема, кажется, ARDD содержит один строковый элемент со всеми вашими словами. Попытайтесь загрузить свои данные по-другому, чтобы один за строкой, и ваш фильтр будет работать.
ARDD
ARDD = sc.parallelize(['MP' , 'rajasthan', 'UP' , 'Kashmir' , 'delhi' , 'haryana' , 'punjab']) stopwords = ['MP','UP'] rdd3 = ARDD.filter(lambda x: x not in stopwords) rdd3.take(10) Out[10]: ['rajasthan', 'Kashmir', 'delhi', 'haryana', 'punjab']