Я знаю, что подобные вопросы задавались здесь, на StackOverflow.Я попытался адаптировать некоторые подходы, но не смог заставить работать что-то, что соответствовало бы моим потребностям:
Учитывая строку питона Я хочу убрать все не алфавитно-цифровые символы - но - оставляя любой особый характер, такой как µ æ Å Ç ß ... Возможно ли это вообще?с помощью регулярных выражений я попробовал варианты этого
re.sub(r'[^a-zA-Z0-9: ]', '', x) # x is my string to sanitize
, но это лишает меня больше, чем я хочу.Вот пример того, что я хочу:
Input: "A string, with characters µ, æ, Å, Ç, ß,... Some whitespace confusion ?"
Output: "A string with characters µ æ Å Ç ß Some whitespace confusion"
Возможно ли это даже без усложнения?