Pyspark: функции фильтра для предварительной обработки текстового файла - PullRequest
0 голосов
/ 26 февраля 2019

Во-первых, я прошу прощения, если это вопрос уровня нубов.Я просто незнаком с pyspark и действительно изо всех сил пытаюсь найти какую-либо полезную документацию по конкретным функциям фильтра.

Моя задача - предварительно обработать текстовый файл, чтобы посчитать вторую букву каждого слова.Вот что у меня есть:

counts = text_file.flatMap(lambda line: line.split(" ") \
         .map(lambda line: line.lower()) \
         [ FILTER FUNCTION ] \
         [ FILTER FUNCTION ] \
         .map(lambda word: (word, 1)) \
         .reduceByKey(lambda a, b: a + b)

Итак, я перевел все буквенные символы в нижний регистр.Мне все еще нужно игнорировать все неалфавитные символы и игнорировать односимвольные слова.

Для игнорирования всех неалфавитных символов мне кажется, что будет достаточно чего-то вроде следующего?

.filter(lambda x: x.isalpha())
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...