Во-первых, я прошу прощения, если это вопрос уровня нубов.Я просто незнаком с pyspark и действительно изо всех сил пытаюсь найти какую-либо полезную документацию по конкретным функциям фильтра.
Моя задача - предварительно обработать текстовый файл, чтобы посчитать вторую букву каждого слова.Вот что у меня есть:
counts = text_file.flatMap(lambda line: line.split(" ") \
.map(lambda line: line.lower()) \
[ FILTER FUNCTION ] \
[ FILTER FUNCTION ] \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
Итак, я перевел все буквенные символы в нижний регистр.Мне все еще нужно игнорировать все неалфавитные символы и игнорировать односимвольные слова.
Для игнорирования всех неалфавитных символов мне кажется, что будет достаточно чего-то вроде следующего?
.filter(lambda x: x.isalpha())