У меня есть программа VB.NET, которая обрабатывает содержимое документов.Программа обрабатывает большие объемы документов как «пакетные» (> 2 миллиона документов; общий объем 1 ТБ). Некоторые из этих документов могут содержать контрольные символы или символы типа f0e8 (http://www.fileformat.info/info/unicode/char/f0e8/browsertest.htm).
. Есть ли простой и особенно быстрый способ удалить эти символы? (Кроме пробела, новой строки, табуляции, ...) Если ответ регулярное выражение: есть ли у кого-нибудь полный регулярное выражение для меня?
Спасибо!
Попробуйте
resultString = Regex.Replace(subjectString, "\p{C}+", "");
Это удалит все «другие» символы Юникода (контроль, формат, личное использование, суррогатное и неназначенное) из вашей строки.
Вот регулярное выражение POSIX для управляющих символов: [:cntrl:], из Регулярное выражение в Википедии.
[:cntrl:]