Question

у меня есть файл names.txt

пример данных:

привет, привет, эй

меня зовут Джек

давайте сделаем это

и у меня есть список

remove = ['it','name']

я создал RDD для names.txt, я хочу отфильтровать из него любой элемент, который соответствует значению из списка,ожидаемые результаты - СДР с одним элементом

привет, привет, эй

Мой код:

RDD = sc.textFile("myfiles/names.txt").map(lambda x: x.split())

remove = ['it','name']

result = RDD.filter(lambda X : "remove.values" not in X)

for i in result.collect() : print i

Мне нужно использовать какой-то метод итерации, но у меня не работает.спасибо

pault · Answer 1 · 21 мая 2018

Вы можете использовать встроенный all(), чтобы отфильтровать случаи, когда любое из плохих значений совпадает:

result = RDD.filter(lambda X: all(val not in X for val in remove))

список фильтрации pyspark от RDD

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

список фильтрации pyspark от RDD

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы