text processng python чтобы избавиться от \ r \ n \ xa0 - PullRequest
0 голосов
/ 22 апреля 2020

У меня есть pandas фрейм данных со столбцом с длинным текстом, называемым описанием. Данные об этом получены из веб-экземпляра jira. Я пытался избавиться от разметки в тексте, используя несколько разных методов, но, похоже, ни один из них не справился с удалением \ r \ n \ xa0.

Вот что у меня есть до сих пор

        df['description'] = df['description'].replace(r'http\S+', '', regex=True).replace(r'www\S+', '', regex=True)
        df['description'] = df['description'].replace(r'[^\x00-\x7F]+', ' ', regex = True)
        df['description'] = df['description'].replace(r'\[(.+)\]\([^\)]+\)', r'\1', regex = True).replace(r'\*\*([^*]+)\*\*', r'\1',                                                                                  regex = True)
        df['description'] = df['description'].replace(r'\*([^*]+)\*',r'\1', regex = True )
        df['description'] = df['description'].astype(str).str.strip()

Есть идеи, что я могу сделать здесь? образец текста

We analyzed found the issue in Garbage Collection which crashed the JVM.\r\n\r\n\xa0\r\n\r\n\xa0\r\n\r\n_Stack: [0x00007f0b58ff1000,0x00007f0b590f1000],\xa0 sp=0x00007f0b590ef120,\xa0 free space=1016k_\r\n\r\n_Native frames: (J=compiled Java code, j=interpreted, Vv=VM code, C=native code)_\r\n\r\n_V\xa0 [libjvm.so+0x8b9e4f]\xa0 MethodData::clean_extra_data(BoolObjectClosure)+0x1cf_\r\n\r\n_V\xa0 [libjvm.so+0x63c582]\xa0 

1 Ответ

1 голос
/ 22 апреля 2020

Это должно захватывать те, если ваша строка не raw:

pattern = r'(\r)|(\n)|(\xa0)'

В противном случае используйте это:

pattern = r'(\\r)|(\\n)|(\\xa0)'
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...