Как избежать или удалить строку типа 0xl14ca44le0, используя re? - PullRequest
0 голосов
/ 29 мая 2019

Я работаю над проектом nlp и пытаюсь убрать столбец "comment" из слов типа "0xla4ca44le0" из моего списка токенов

1- re.escape()
2- re.split('\[a-z]+[0-9]+' , text )

TypeError: ожидаемая строка или байтовоподобный объект

1 Ответ

0 голосов
/ 29 мая 2019

Кажется, у вас проблема с кодировкой.Попробуйте импортировать ваш фрейм данных, используя utf-8, а затем удалите не-ascci символы ((если «0x» является частью некоторого шестнадцатеричного числа или чего-то еще, оно будет отображаться на экране с кодировкой utf-8)

mydataframe_in_utf8 = pd.read_csv('file.csv', encoding='utf-8')

Затем удалите все не-ascii символы:

def remove_non_ascii(text):
    return text.encode('ascii', 'ignore').decode('ascii')

df.comment.apply(remove_non_ascii)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...