Как правильно обрезать пробелы из строки в Java? - PullRequest
39 голосов
/ 17 сентября 2009

Метод JDK String.trim () довольно наивен и удаляет только управляющие символы ascii.

Apache Commons ' StringUtils.strip () немного лучше, но использует JDK Character.isWhitespace () , который не распознает неразрывный пробел как пробельные .

Итак, что было бы наиболее полным, Unicode-совместимым, безопасным и правильным способом обрезки строки в Java?

И, кстати, есть ли лучшая библиотека, чем commons-lang, которую я должен использовать для такого рода вещей?

Ответы [ 6 ]

58 голосов
/ 17 сентября 2009

Google недавно сделал доступными библиотеки guava . может иметь то, что вы ищете:

CharMatcher.inRange('\0', ' ').trimFrom(str)

эквивалентно String.trim (), но вы можете настроить, что обрезать, см. JavaDoc.

Например, он имеет свое собственное определение WHITESPACE , которое отличается от JDK и определяется в соответствии с последним стандартом Unicode, поэтому то, что вам нужно, можно записать как:

CharMatcher.WHITESPACE.trimFrom(str)
7 голосов
/ 17 сентября 2009

Клянусь, я увидел это только после того, как отправил вопрос: Google только что выпустил Guava , библиотеку основных утилит Java.

Я еще не пробовал, но, насколько я могу судить, это полностью соответствует Unicode:

String s = "  \t testing \u00a0"
s = CharMatcher.WHITESPACE.trimFrom(s);
2 голосов
/ 17 сентября 2009

Действительно трудно определить, что представляет собой пробелы. Иногда я использую неразрывные пробелы только для того, чтобы убедиться, что они не будут удалены. Поэтому будет сложно найти библиотеку, которая будет делать именно то, что вы хотите.

Я использую свою собственную отделку (), если хочу обрезать каждое пробел Вот функция, которую я использую для проверки пробелов,

  public static boolean isWhitespace (int ch)
  {
    if (ch == ' ' || (ch >= 0x9 && ch <= 0xD))
      return true;
    if (ch < 0x85) // short-circuit optimization.
      return false;
    if (ch == 0x85 || ch == 0xA0 || ch == 0x1680 || ch == 0x180E)
      return true;
    if (ch < 0x2000 || ch > 0x3000)
      return false;
    return ch <= 0x200A || ch == 0x2028 || ch == 0x2029
      || ch == 0x202F || ch == 0x205F || ch == 0x3000;
  }
2 голосов
/ 17 сентября 2009

Я всегда находил, что trim работает довольно хорошо почти для каждого сценария.

Однако, если вы действительно хотите включить больше символов, вы можете отредактировать метод strip из commons-lang, чтобы включить не только тест для Character.isWhitespace, но и для Character.isSpaceChar который кажется тем, чего не хватает. А именно, следующие строки в stripStart и stripEnd соответственно:

  • while ((start != strLen) && Character.isWhitespace(str.charAt(start)))
  • while ((end != 0) && Character.isWhitespace(str.charAt(end - 1)))
1 голос
/ 25 июля 2015

Я сделал небольшие изменения в методе java trim (), и он поддерживает не-ascii символы. Этот метод работает быстрее, чем большинство реализаций.

public static String trimAdvanced(String value) {

        Objects.requireNonNull(value);

        int strLength = value.length();
        int len = value.length();
        int st = 0;
        char[] val = value.toCharArray();

        if (strLength == 0) {
            return "";
        }

        while ((st < len) && (val[st] <= ' ') || (val[st] == '\u00A0')) {
            st++;
            if (st == strLength) {
                break;
            }
        }
        while ((st < len) && (val[len - 1] <= ' ') || (val[len - 1] == '\u00A0')) {
            len--;
            if (len == 0) {
                break;
            }
        }


        return (st > len) ? "" : ((st > 0) || (len < strLength)) ? value.substring(st, len) : value;
    }
0 голосов
/ 19 октября 2018

Это обрабатывает символы Юникода и не требует дополнительных библиотек:

String trimmed = original.replaceAll ("^\\p{IsWhite_Space}+|\\p{IsWhite_Space}+$", "");

Небольшое затруднение в том, что есть некоторые связанные пробельные символы без свойства символа Unicode "WSpace = Y", которые перечислены в Википедии . Это, вероятно, не вызовет проблем, но вы также можете легко добавить их в класс символов.

Используя almson-regex , регулярное выражение будет выглядеть так:

String trimmed = original.replaceAll (either (START_BOUNDARY + oneOrMore (WHITESPACE), oneOrMore (WHITESPACE) + END BOUNDARY), "");

и включает более релевантные пробелы, отличные от Unicode.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...