список фильтрации pyspark от RDD - PullRequest
0 голосов
/ 14 мая 2018

у меня есть файл names.txt

пример данных:

привет, привет, эй

меня зовут Джек

давайте сделаем это

и у меня есть список

remove = ['it','name']

я создал RDD для names.txt, я хочу отфильтровать из него любой элемент, который соответствует значению из списка,ожидаемые результаты - СДР с одним элементом

привет, привет, эй

Мой код:

RDD = sc.textFile("myfiles/names.txt").map(lambda x: x.split())

remove = ['it','name']

result = RDD.filter(lambda X : "remove.values" not in X)

for i in result.collect() : print i

Мне нужно использовать какой-то метод итерации, но у меня не работает.спасибо

1 Ответ

0 голосов
/ 21 мая 2018

Вы можете использовать встроенный all(), чтобы отфильтровать случаи, когда любое из плохих значений совпадает:

result = RDD.filter(lambda X: all(val not in X for val in remove))
...