убрать знаки препинания из строки юникода - PullRequest
0 голосов
/ 31 октября 2019

Я попробовал приведенный ниже фрагмент кода, чтобы удалить пунктуацию из строки.

import re
s = "string. With. Punctuation?"
s = re.sub(r'[^\w\s]','',s)

Это прекрасно работает для текста, подобного латинскому (скрипт), но, похоже, имеет проблемы с текстом в Unicode, таким как хинди, телугу и т. Д. .

например:

import re
s = "అనేది దేనికి సమానం అవుతుంది."
s = re.sub(r'[^\w\s]','',s)

Этот текст полностью меняет сам текст и делает его непонятным, удаляя зависимые гласные этого сценария.

Поэтому мой вопрос заключается в том, как я могу удалить пунктуацию из текста, отличного от римского.

Двойной связанный вопрос заменит пунктуацию для римской строки, как я уже упоминал. Моя проблема здесь состоит в том, чтобы заменить пунктуацию для Unicode как строка. Существует четкая разница, а не дубликат.

...