PySpark - фильтрация нежелательных персонажей из RDD - PullRequest
0 голосов
/ 26 апреля 2020

В настоящее время я использую import re для фильтрации нежелательных символов в программе PySpark. Есть ли способ, которым я могу фильтровать все сразу, а не для каждого символа?

PS Мне разрешено использовать только СДР.

Вот код, который я сейчас использую:

import re

#delimiter = "\\d+\\t\\.\?!,;\\:\(\)\[\]\{\}-\"`~#&\*%\$\\\\/"

#remove unwanted chars
reviewText = re.sub("\\d+", " ",reviewText)
reviewText = re.sub("\\t", " ",reviewText)
reviewText = re.sub("\\.", " ",reviewText)
reviewText = re.sub("\?", " ",reviewText)
reviewText = re.sub("!", " ",reviewText)
reviewText = re.sub(",", " ",reviewText)
reviewText = re.sub(";", " ",reviewText)
reviewText = re.sub("\\:", " ",reviewText)
reviewText = re.sub("\(", " ",reviewText)
reviewText = re.sub("\)", " ",reviewText)
reviewText = re.sub("\[", " ",reviewText)
reviewText = re.sub("\]", " ",reviewText)
reviewText = re.sub("\{", " ",reviewText)
reviewText = re.sub("\}", " ",reviewText)
reviewText = re.sub("-", " ",reviewText)
reviewText = re.sub("\"", " ",reviewText)
reviewText = re.sub("`", " ",reviewText)
reviewText = re.sub("~", " ",reviewText)
reviewText = re.sub("#", " ",reviewText)
reviewText = re.sub("&", " ",reviewText)
reviewText = re.sub("\*", " ",reviewText)
reviewText = re.sub("%", " ",reviewText)
reviewText = re.sub("\$", " ",reviewText)
reviewText = re.sub("\\\\", " ",reviewText)
reviewText = re.sub("/", " ",reviewText)
...