Я анализирую CSV-файлы и хотел бы удалить не-ascii символы при их появлении.На самом деле мне нужны только цифры, но когда я пытаюсь удалить нецифровые символы, я получаю UnicodeEncodeError
.
У меня есть следующая функция:
def remove_non_ascii(text):
return ''.join(re.findall("\d+", str(text)))
Также пробовал (простодля удаления символов, отличных от ascii):
def remove_non_ascii(text):
return ''.join(i for i in str(text) if ord(i)<128)
Когда я печатаю результат следующего, я получаю правильный результат (для обеих функций)
print(remove_non_ascii('E-Mail Adresse des Empfängers'))
Однако, когда я применяюфункция для столбца данных df[col] = df[col].apply(remove_non_ascii)
, я получаю UnicodeEncodeError
.
Что я делаю не так?