Я работаю над проектом обработки текста НЛП с использованием python, в котором мне нужно выполнить очистку данных перед извлечением функций. Я делаю очистку специальных символов и разделений чисел с помощью символов, используя операцию регулярного выражения, но я делаю все это во многих операциях по отдельности, что делает его медленным. Я хочу сделать это как можно меньше операций или более быстрым способом.
мой код выглядит следующим образом
def remove_special_char(x):
if type(x) is str:
x = x.replace('-', ' ').replace('(', ',').replace(')', ',')
x = re.compile(r"\s+").sub(" ", x).strip()
x = re.sub(r'[^A-Z a-z 0-9-,.x]+', '', x).lower()
x = re.sub(r"([0-9]+(\.[0-9]+)?)",r" \1 ", x).strip()
x = x.replace(",,",",")
return x
else:
return x
Кто-нибудь может мне помочь?