Question

Во-первых, я прошу прощения, если это вопрос уровня нубов.Я просто незнаком с pyspark и действительно изо всех сил пытаюсь найти какую-либо полезную документацию по конкретным функциям фильтра.

Моя задача - предварительно обработать текстовый файл, чтобы посчитать вторую букву каждого слова.Вот что у меня есть:

counts = text_file.flatMap(lambda line: line.split(" ") \
         .map(lambda line: line.lower()) \
         [ FILTER FUNCTION ] \
         [ FILTER FUNCTION ] \
         .map(lambda word: (word, 1)) \
         .reduceByKey(lambda a, b: a + b)

Итак, я перевел все буквенные символы в нижний регистр.Мне все еще нужно игнорировать все неалфавитные символы и игнорировать односимвольные слова.

Для игнорирования всех неалфавитных символов мне кажется, что будет достаточно чего-то вроде следующего?

.filter(lambda x: x.isalpha())

Pyspark: функции фильтра для предварительной обработки текстового файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Pyspark: функции фильтра для предварительной обработки текстового файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов