Сортировка символов в строке UTF-16 в Java - PullRequest
16 голосов
/ 23 апреля 2019

TLDR

Java использует два символа для представления UTF-16.Использование Arrays.sort (нестабильная сортировка) портит последовательность символов.Должен ли я преобразовать char [] в int [] или есть лучший способ?

Подробности

Java представляет символ как UTF-16.Но сам класс Character охватывает char (16 бит).Для UTF-16 это будет массив из двух char s (32 бита).

Сортировка строки символов UTF-16 с использованием встроенной сортировки путает с данными.(Arrays.sort использует двойную поворотную быструю сортировку, а Collections.sort использует Arrays.sort для выполнения тяжелой работы.)

Если быть точным, вы конвертируете char [] в int [] или есть лучший способсортировать?

import java.util.Arrays;

public class Main {
    public static void main(String[] args) {
        int[] utfCodes = {128513, 128531, 128557};
        String emojis = new String(utfCodes, 0, 3);
        System.out.println("Initial String: " + emojis);

        char[] chars = emojis.toCharArray();
        Arrays.sort(chars);
        System.out.println("Sorted String: " + new String(chars));
    }
}

Вывод:

Initial String: ???
Sorted String: ?????

Ответы [ 3 ]

12 голосов
/ 23 апреля 2019

Я немного осмотрелся и не смог найти никаких простых способов сортировки массива по группам из двух элементов без использования библиотеки.

К счастью, codePoints из String - это то, что вы использовали для создания самого String в этом примере, так что вы можете просто отсортировать их и создать новый String с результатом.

public static void main(String[] args) {
    int[] utfCodes = {128531, 128557, 128513};
    String emojis = new String(utfCodes, 0, 3);
    System.out.println("Initial String: " + emojis);

    int[] codePoints = emojis.codePoints().sorted().toArray();
    System.out.println("Sorted String: " + new String(codePoints, 0, 3));
}

Начальная строка: 101

Сортированная строка: 101

Я изменил порядок символов в вашем примере, потому что они уже отсортированы.

6 голосов
/ 23 апреля 2019

Если вы используете Java 8 или более позднюю версию, то это простой способ сортировки символов в строке с соблюдением (не ломая) кодировок с несколькими символами:

int[] codepoints = someString.codePoints().sort().toArray();
String sorted = new String(codepoints, 0, codepoints.length);

До Java 8 я думаю, что вам нужно либо использовать цикл для итерации кодовых точек в исходной строке, либо использовать сторонний библиотечный метод.


К счастью, сортировка кодовых точек в строке встречается достаточно редко, так что неуклюжесть и относительная неэффективность приведенных выше решений редко вызывают беспокойство.

(Когда вы в последний раз проверяли анаграммы смайликов?)

4 голосов
/ 23 апреля 2019

Мы не можем использовать char для Unicode, , потому что обработка символов Unicode в Java нарушена .

В первые дни Java кодовые точки Unicode всегда были 16-битными (фиксированный размер ровно с одним символом). Однако спецификация Unicode была изменена, чтобы разрешить использование дополнительных символов. Это означало, что символы Юникода теперь имеют переменную ширину и могут быть длиннее одного символа. К сожалению, было слишком поздно менять реализацию символов Java, не нарушая тонны производственного кода.

Таким образом, лучший способ манипулировать символами Unicode - это непосредственно использовать кодовые точки, например, используя String.codePointAt(index) или поток String.codePoints() в JDK 1.8 и выше.

Дополнительные источники:

...