Я попробовал приведенный ниже фрагмент кода, чтобы удалить пунктуацию из строки.
import re
s = "string. With. Punctuation?"
s = re.sub(r'[^\w\s]','',s)
Это прекрасно работает для текста, подобного латинскому (скрипт), но, похоже, имеет проблемы с текстом в Unicode, таким как хинди, телугу и т. Д. .
например:
import re
s = "అనేది దేనికి సమానం అవుతుంది."
s = re.sub(r'[^\w\s]','',s)
Этот текст полностью меняет сам текст и делает его непонятным, удаляя зависимые гласные этого сценария.
Поэтому мой вопрос заключается в том, как я могу удалить пунктуацию из текста, отличного от римского.
Двойной связанный вопрос заменит пунктуацию для римской строки, как я уже упоминал. Моя проблема здесь состоит в том, чтобы заменить пунктуацию для Unicode как строка. Существует четкая разница, а не дубликат.