Фильтр RDD с точным поиском по слову - PullRequest
0 голосов
/ 14 октября 2019

У меня есть объект rdd (созданный из текстового файла), и я создаю другой объект rdd путем фильтрации с точно совпадающим словом.

rdd2 = rdd1.filter(lambda x: word in x)

word - это строка, сгенерированная в цикле for. Поэтому я буду искать несколько слов в rdd1 в цикле. Например, если мое значение слова «электронная книга». Итак, когда я ищу rdd1, я получаю все строки, соответствующие электронной книге. Но я также получаю строки со значением 'ebooks'.

Как отфильтровать rdd с точным соответствием слова? rdd2 должен содержать строки только с точно совпадающим словом, которое ebook не ebooks.

Мне нужно создать промежуточный rdd для дальнейших процессов. Пожалуйста, помогите.

1 Ответ

0 голосов
/ 14 октября 2019
rdd2 = rdd1.filter(lambda x: word in x.split())

x.split() работал для точного соответствия слова.

...