Question

Следующие символы заменят управляющие символы ASCII (сокращение для [\x00-\x1F\x7F]):

my_string.replaceAll("\\p{Cntrl}", "?");

Следующее заменит все непечатные символы ASCII (сокращение для [\p{Graph}\x20]), включая символы с акцентом:

my_string.replaceAll("[^\\p{Print}]", "?");

Однако ни одна из них не работает для строк Unicode.У кого-нибудь есть хороший способ удалить непечатаемые символы из строки Unicode?

Op De Cirkel · Answer 1 · 01 июня 2011

my_string.replaceAll("\\p{C}", "?");

Подробнее о Unicode regex .java.util.regexPattern / String.replaceAll поддерживает их.

noackjr · Answer 2 · 04 сентября 2013

Оп де Циркель в основном прав.Его предложение будет работать в большинстве случаев:

myString.replaceAll("\\p{C}", "?");

Но если myString может содержать не-BMP кодовые точки, то это более сложно.\p{C} содержит суррогатные кодовые точки \p{Cs}.Приведенный выше метод замены повредит кодовые точки, отличные от BMP, иногда заменяя только половину суррогатной пары.Возможно, это ошибка Java, а не предполагаемое поведение.

Использование других составляющих категорий - это опция:

myString.replaceAll("[\\p{Cc}\\p{Cf}\\p{Co}\\p{Cn}]", "?");

Однако, отдельные суррогатные символы не являются частью пары (каждый суррогатный символимеет назначенный код) не будет удален.Подход без регулярных выражений - единственный известный мне способ правильно обработать \p{C}:

StringBuilder newString = new StringBuilder(myString.length());
for (int offset = 0; offset < myString.length();)
{
    int codePoint = myString.codePointAt(offset);
    offset += Character.charCount(codePoint);

    // Replace invisible control characters and unused code points
    switch (Character.getType(codePoint))
    {
        case Character.CONTROL:     // \p{Cc}
        case Character.FORMAT:      // \p{Cf}
        case Character.PRIVATE_USE: // \p{Co}
        case Character.SURROGATE:   // \p{Cs}
        case Character.UNASSIGNED:  // \p{Cn}
            newString.append('?');
            break;
        default:
            newString.append(Character.toChars(codePoint));
            break;
    }
}

Joachim Sauer · Answer 3 · 01 июня 2011

Вас могут заинтересовать Unicode категории "Другое, Контроль" и возможно "Другое, Формат" (к сожалению,последний, кажется, содержит как непечатаемые, так и печатные символы).

В регулярных выражениях Java вы можете проверять их, используя \p{Cc} и \p{Cf} соответственно.

Ali Bagheri · Answer 4 · 05 апреля 2018

методов в ударе для вашей цели

public static String removeNonAscii(String str)
{
    return str.replaceAll("[^\\x00-\\x7F]", "");
}

public static String removeNonPrintable(String str) // All Control Char
{
    return str.replaceAll("[\\p{C}]", "");
}

public static String removeSomeControlChar(String str) // Some Control Char
{
    return str.replaceAll("[\\p{Cntrl}\\p{Cc}\\p{Cf}\\p{Co}\\p{Cn}]", "");
}

public static String removeFullControlChar(String str)
{
    return removeNonPrintable(str).replaceAll("[\\r\\n\\t]", "");
}

Ramesh Bathini · Answer 5 · 24 января 2019

Я предлагаю убрать непечатаемые символы, как показано ниже, вместо замены

private String removeNonBMPCharacters(final String input) {
    StringBuilder strBuilder = new StringBuilder();
    input.codePoints().forEach((i) -> {
        if (Character.isSupplementaryCodePoint(i)) {
            strBuilder.append("?");
        } else {
            strBuilder.append(Character.toChars(i));
        }
    });
    return strBuilder.toString();
}

RyanLeiTaiwan · Answer 6 · 26 октября 2018

Основываясь на ответах Op De Cirkel и noackjr , я делаю следующее для общей очистки строк: 1. обрезание начальных или конечных пробелов, 2. dos2unix, 3. mac2unix, 4. удаление всех «невидимых символов Юникода», кроме пробелов:

myString.trim.replaceAll("\r\n", "\n").replaceAll("\r", "\n").replaceAll("[\\p{Cc}\\p{Cf}\\p{Co}\\p{Cn}&&[^\\s]]", "")

Протестировано с помощью Scala REPL.

user1300830 · Answer 7 · 27 сентября 2018

Я использовал эту простую функцию для этого:

private static Pattern pattern = Pattern.compile("[^ -~]");
private static String cleanTheText(String text) {
    Matcher matcher = pattern.matcher(text);
    if ( matcher.find() ) {
        text = text.replace(matcher.group(0), "");
    }
    return text;
}

Надеюсь, это полезно.

Kairat Koibagarov · Answer 8 · 19 мая 2017

Я изменил код для телефонных номеров +9 (987) 124124 Извлечение цифр из строки в Java

 public static String stripNonDigitsV2( CharSequence input ) {
    if (input == null)
        return null;
    if ( input.length() == 0 )
        return "";

    char[] result = new char[input.length()];
    int cursor = 0;
    CharBuffer buffer = CharBuffer.wrap( input );
    int i=0;
    while ( i< buffer.length()  ) { //buffer.hasRemaining()
        char chr = buffer.get(i);
        if (chr=='u'){
            i=i+5;
            chr=buffer.get(i);
        }

        if ( chr > 39 && chr < 58 )
            result[cursor++] = chr;
        i=i+1;
    }

    return new String( result, 0, cursor );
}

Как заменить непечатаемые символы Юникода в Java?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как заменить непечатаемые символы Юникода в Java?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов