Мне нужно удалить некоторые диакритические знаки из текста на иврите. Если бы мне нужно было убрать текст со ВСЕХ диакритических знаков, это не было бы такой проблемой.
В Юникоде диапазон, который я хотел бы удалить, находится между \ u0591 и \ u05AF (или 1425 - 1455 в десятичном виде). все остальные символы (буквы, диакритические знаки или знаки пунктуации) в идеале должны оставаться.
ввод - текстовый файл, вывод - также текстовый файл. Каков будет лучший способ удалить только диапазон символов Юникода? или, возможно, юникод не в том направлении ...?
edit:
это код, который я использовал для удаления всех диакритических знаков. Любые предложения, как я могу изменить его так, чтобы он удалял только нужные символы и не все диакритические знаки?
normalized=unicodedata.normalize('NFKD', content)
no_diacritics=''.join([c for c in normalized if not
unicodedata.combining(c)])
no_diacritics
f.close()
Буду признателен за вашу помощь! Спасибо.