Question

В настоящее время у меня есть несколько текстов, которые иногда содержат символ «недопустимый символ», например, \ uf0b7 или \ uf077. У меня нет способа узнать, какой из недопустимых кодов символов может содержать конкретный текст, и я подумал, есть ли способ убедиться, что строка очищена от всех типов «недопустимых символов», поскольку процесс позже (который зависит от стороннего пакета) не может получить строку, которая его содержит.

Я попытался найти решение, но все, что я получаю, это ответы относительно обычных символов, которые люди хотят удалить (например, '^% $ & *'), которые они классифицировали как недопустимые символы, однако я хочу удалить / заменить действительный символ «недопустимый символ» во всех его формах

Rob Davis · Answer 1 · 28 мая 2019

Кодеки библиотеки Python могут быть полезны.Взгляните на документацию здесь: https://docs.python.org/2/library/codecs.htm

В моем случае я проводил некоторый анализ документов, которые имели текст не-ASCII.Для моих целей игнорирование недопустимых символов было приемлемым.Я открыл файлы со следующей строкой и смог разобрать корпус.

for filename in os.listdir(ROOT_DIR):
    with codecs.open(os.path.join(ROOT_DIR, filename), encoding = 'UTF8', errors ='replace' ) as f:

Удаление всех недопустимых символов (например, \ uf0b7) из текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удаление всех недопустимых символов (например, \ uf0b7) из текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы