Удаление всех недопустимых символов (например, \ uf0b7) из текста - PullRequest
0 голосов
/ 28 мая 2019

В настоящее время у меня есть несколько текстов, которые иногда содержат символ «недопустимый символ», например, \ uf0b7 или \ uf077. У меня нет способа узнать, какой из недопустимых кодов символов может содержать конкретный текст, и я подумал, есть ли способ убедиться, что строка очищена от всех типов «недопустимых символов», поскольку процесс позже (который зависит от стороннего пакета) не может получить строку, которая его содержит.

Я попытался найти решение, но все, что я получаю, это ответы относительно обычных символов, которые люди хотят удалить (например, '^% $ & *'), которые они классифицировали как недопустимые символы, однако я хочу удалить / заменить действительный символ «недопустимый символ» во всех его формах

1 Ответ

0 голосов
/ 28 мая 2019

Кодеки библиотеки Python могут быть полезны.Взгляните на документацию здесь: https://docs.python.org/2/library/codecs.htm

В моем случае я проводил некоторый анализ документов, которые имели текст не-ASCII.Для моих целей игнорирование недопустимых символов было приемлемым.Я открыл файлы со следующей строкой и смог разобрать корпус.

for filename in os.listdir(ROOT_DIR):
    with codecs.open(os.path.join(ROOT_DIR, filename), encoding = 'UTF8', errors ='replace' ) as f:
...