Я делаю следующее:
re.sub(r'[^ \nA-Za-z0-9/]+', '', document)
для удаления каждого символа, который не является буквенно-цифровым, пробелом, символом новой строки или косой чертой.
Итак, я хочу удалить все специальные символы, кроме новой строки и косой черты.
Однако я не хочу удалять акцентированные буквы, которые есть на разных языках, например на французском, немецком и т. Д.
Но если я введу приведенный выше код, то, например, слово
Motörhead
становится
Motrhead
и я не хочу этого делать.
Так как мне запустить приведенный выше код, но без удаления акцентированных букв?
UPDATE:
@ MattM ниже предлагает решение, которое работает для таких языков, как английский, французский, немецкий и т. Д., Но, безусловно, не работает для таких языков, как польский, где все акцентированные буквы все еще были удалены.