Я работаю с предоставленными пользователем файлами, в которых есть несколько недопустимых символов, большинство из них делают в MS Word преобразование таких вещей, как дефисы, в дефисы или кавычки в «умные кавычки». Я пишу метод для замены нескольких из них, в частности (например, конвертировать en-dashes обратно в дефисы), и теперь мне нужно заменить все другие «недопустимые» символы пробелом. Поэтому моей первой попыткой было использование регулярного выражения для сопоставления недопустимых символов с "[\ x80- \ xFF]", а затем замена только совпадений. Я думал, что только циклическое прохождение совпадений будет намного быстрее, чем 127 замен в форме blah = blah.replace (chr (128), "").
Проблема, с которой я столкнулся, заключается в том, что регулярное выражение .net, похоже, не соответствует или не заменяет шестнадцатеричные значения выше \ x7F (дек. 127). Есть ли способ установить регулярные выражения .net для использования полного набора символов Юникода?
Заранее спасибо.