.Net Regex для символов Latin-1 (\ x80- \ xFF) - PullRequest
0 голосов
/ 03 августа 2011

Я работаю с предоставленными пользователем файлами, в которых есть несколько недопустимых символов, большинство из них делают в MS Word преобразование таких вещей, как дефисы, в дефисы или кавычки в «умные кавычки». Я пишу метод для замены нескольких из них, в частности (например, конвертировать en-dashes обратно в дефисы), и теперь мне нужно заменить все другие «недопустимые» символы пробелом. Поэтому моей первой попыткой было использование регулярного выражения для сопоставления недопустимых символов с "[\ x80- \ xFF]", а затем замена только совпадений. Я думал, что только циклическое прохождение совпадений будет намного быстрее, чем 127 замен в форме blah = blah.replace (chr (128), "").

Проблема, с которой я столкнулся, заключается в том, что регулярное выражение .net, похоже, не соответствует или не заменяет шестнадцатеричные значения выше \ x7F (дек. 127). Есть ли способ установить регулярные выражения .net для использования полного набора символов Юникода?

Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...