У меня есть объект rdd (созданный из текстового файла), и я создаю другой объект rdd путем фильтрации с точно совпадающим словом.
rdd2 = rdd1.filter(lambda x: word in x)
word
- это строка, сгенерированная в цикле for. Поэтому я буду искать несколько слов в rdd1
в цикле. Например, если мое значение слова «электронная книга». Итак, когда я ищу rdd1, я получаю все строки, соответствующие электронной книге. Но я также получаю строки со значением 'ebooks'.
Как отфильтровать rdd с точным соответствием слова? rdd2
должен содержать строки только с точно совпадающим словом, которое ebook
не ebooks
.
Мне нужно создать промежуточный rdd для дальнейших процессов. Пожалуйста, помогите.