Regex для значений Dataframe - PullRequest
       3

Regex для значений Dataframe

1 голос
/ 25 февраля 2020
def Clean_Data(df):
   df.replace({ r'\A\s+|\s+\Z': '', '\n' : ' ', '\w\s+\w|\w\n\w': '\w\s\w'}, regex=True, inplace=True)
   return df

Я хотел бы очистить свой фрейм данных, прежде чем работать над ним. Мне нужно избавиться от:

двойного пробела

пробела + перенос строки

-> и заменить его одним пробелом.

Как я хочу проверить, существует ли более одного пробела между двумя словами (буквами или цифрами), и уменьшить его до одного пробела.

И хотя бы проверьте, есть ли пробелы между словами и знаками (или.) И замените на ''.

Но я буквально не имею представления о регулярном выражении и уже получаю сообщение об ошибке для bad escape \w

1 Ответ

4 голосов
/ 25 февраля 2020

Попробуйте это df.replace({' +':' ', '\n':' ','->':' '}, regex=True, inplace=True)

Первый проверяет наличие более одного пробела и заменяет только один пробел.
Второй проверяет наличие новой строки и заменяет пробел
Третьим является шаблон -> и заменяет пробел

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...