Оп де Циркель в основном прав.Его предложение будет работать в большинстве случаев:
myString.replaceAll("\\p{C}", "?");
Но если myString
может содержать не-BMP кодовые точки, то это более сложно.\p{C}
содержит суррогатные кодовые точки \p{Cs}
.Приведенный выше метод замены повредит кодовые точки, отличные от BMP, иногда заменяя только половину суррогатной пары.Возможно, это ошибка Java, а не предполагаемое поведение.
Использование других составляющих категорий - это опция:
myString.replaceAll("[\\p{Cc}\\p{Cf}\\p{Co}\\p{Cn}]", "?");
Однако, отдельные суррогатные символы не являются частью пары (каждый суррогатный символимеет назначенный код) не будет удален.Подход без регулярных выражений - единственный известный мне способ правильно обработать \p{C}
:
StringBuilder newString = new StringBuilder(myString.length());
for (int offset = 0; offset < myString.length();)
{
int codePoint = myString.codePointAt(offset);
offset += Character.charCount(codePoint);
// Replace invisible control characters and unused code points
switch (Character.getType(codePoint))
{
case Character.CONTROL: // \p{Cc}
case Character.FORMAT: // \p{Cf}
case Character.PRIVATE_USE: // \p{Co}
case Character.SURROGATE: // \p{Cs}
case Character.UNASSIGNED: // \p{Cn}
newString.append('?');
break;
default:
newString.append(Character.toChars(codePoint));
break;
}
}