Я довольно новичок в PySpark, поэтому извините, если мой вопрос кажется слишком простым, но я застрял в нем некоторое время.
Учитывая, что следующий текст распараллелен
Алиса недавно была обеспокоена недавними событиями. Алиса обратила внимание на то, что ее оценки снижались, что очень беспокоило Алису. Если бы родители Алисы узнали об этом, они бы бросили. Что должна сделать Алиса?
Я знаю, что для поиска частоты слова «Алиса» используется код
rdd.filter(lambda x: "Alice" in x).count()
, равный 5. Однако как мне исключите те, которые являются «Алисой» и просто получите количество слов «Алисы», поэтому мой желаемый счет должен быть 3 вместо 5.