Не получен ожидаемый результат в преобразовании фильтра для СДР - PullRequest
0 голосов
/ 03 октября 2019

Я загрузил текстовый файл и применил преобразование (фильтр), но не получил ожидаемый результат .code и результат ниже

stopwords = ['MP','UP']
2
rdd3 = ARDD.filter(lambda x: x not in stopwords)
3
rdd3.take(10)
(2) Spark Jobs
Out[22]: ['MP , rajasthan, UP , Kashmir , delhi , haryana , punjab ']

Ответы [ 2 ]

1 голос
/ 03 октября 2019

Ваша проблема, кажется, ARDD содержит один строковый элемент со всеми вашими словами. Попытайтесь загрузить свои данные по-другому, чтобы один за строкой, и ваш фильтр будет работать.

0 голосов
/ 03 октября 2019
ARDD = sc.parallelize(['MP' , 'rajasthan', 'UP' , 'Kashmir' , 'delhi' , 'haryana' , 'punjab'])
stopwords = ['MP','UP']
rdd3 = ARDD.filter(lambda x: x not in stopwords)
rdd3.take(10)

Out[10]: ['rajasthan', 'Kashmir', 'delhi', 'haryana', 'punjab']
...