Question

Я пытаюсь прочитать кодовые точки Unicode из текстового файла на Java. Класс InputStreamReader возвращает содержимое потока int на int, что, как я надеялся, будет делать то, что я хочу, но не содержит суррогатных пар.

Моя тестовая программа:

import java.io.*;
import java.nio.charset.*;

class TestChars {
    public static void main(String args[]) {
        InputStreamReader reader =
            new InputStreamReader(System.in, StandardCharsets.UTF_8);
        try {
            System.out.print("> ");
            int code = reader.read();
            while (code != -1) {
                String s =
                    String.format("Code %x is `%s', %s.",
                                  code,
                                  Character.getName(code),
                                  new String(Character.toChars(code)));
                System.out.println(s);
                code = reader.read();
            }
        } catch (Exception e) {
        }
    }
}

Это ведет себя следующим образом:

$ java TestChars 
> keyboard ⌨. pizza ?
Code 6b is `LATIN SMALL LETTER K', k.
Code 65 is `LATIN SMALL LETTER E', e.
Code 79 is `LATIN SMALL LETTER Y', y.
Code 62 is `LATIN SMALL LETTER B', b.
Code 6f is `LATIN SMALL LETTER O', o.
Code 61 is `LATIN SMALL LETTER A', a.
Code 72 is `LATIN SMALL LETTER R', r.
Code 64 is `LATIN SMALL LETTER D', d.
Code 20 is `SPACE',  .
Code 2328 is `KEYBOARD', ⌨.
Code 2e is `FULL STOP', ..
Code 20 is `SPACE',  .
Code 70 is `LATIN SMALL LETTER P', p.
Code 69 is `LATIN SMALL LETTER I', i.
Code 7a is `LATIN SMALL LETTER Z', z.
Code 7a is `LATIN SMALL LETTER Z', z.
Code 61 is `LATIN SMALL LETTER A', a.
Code 20 is `SPACE',  .
Code d83c is `HIGH SURROGATES D83C', ?.
Code df55 is `LOW SURROGATES DF55', ?.
Code a is `LINE FEED (LF)', 
.

Моя проблема в том, что суррогатные пары, составляющие эмодзи для пиццы, читаются отдельно. Я хотел бы прочитать символ в один int и покончить с ним.

Вопрос: Существует ли читательский (подобный) класс, который будет автоматически составлять суррогатные пары для символов во время чтения? (И, по-видимому, выдает исключение, если ввод искажен.)

Я знаю, что могу составить пары самостоятельно, но я бы предпочел не изобретать велосипед заново.

Shawn · Answer 1 · 13 ноября 2018

Если вы используете String, имея метод, который возвращает поток кодовых точек, вам не придется самостоятельно работать с суррогатными парами:

import java.io.*;

class cptest {
    public static void main(String[] args) {
        try (BufferedReader br =
                new BufferedReader(new InputStreamReader(System.in, "UTF-8"))) {
            br.lines().flatMapToInt(String::codePoints).forEach(cptest::print);
        } catch (Exception e) {
            System.err.println("Error: " + e);
        }
    }
    private static void print(int cp) {
        String s = new String(Character.toChars(cp));
        System.out.println("Character " + cp + ": " + s);
    }
}

даст

$ java cptest <<< "keyboard ⌨. pizza ?"
Character 107: k
Character 101: e
Character 121: y
Character 98: b
Character 111: o
Character 97: a
Character 114: r
Character 100: d
Character 32:  
Character 9000: ⌨
Character 46: .
Character 32:  
Character 112: p
Character 105: i
Character 122: z
Character 122: z
Character 97: a
Character 32:  
Character 127829: ?

Codo · Answer 2 · 13 ноября 2018

Вы можете обернуть экземпляр Reader простым классом, который расшифровывает суррогатные пары:

import java.io.Closeable;
import java.io.IOException;
import java.io.Reader;

public class CodepointStream implements Closeable {

    private Reader reader;

    public CodepointStream(Reader reader) {
        this.reader = reader;
    }

    public int read() throws IOException {
        int unit0 = reader.read();
        if (unit0 < 0)
            return unit0; // EOF

        if (!Character.isHighSurrogate((char)unit0))
            return unit0;

        int unit1 = reader.read();
        if (unit1 < 0)
            return unit1; // EOF

        if (!Character.isLowSurrogate((char)unit1))
            throw new RuntimeException("Invalid surrogate pair");

        return Character.toCodePoint((char)unit0, (char)unit1);
    }

    public void close() throws IOException {
        reader.close();
        reader = null;
    }
}

Функции main должны быть слегка изменены:

import java.io.InputStreamReader;
import java.nio.charset.StandardCharsets;

public final class App {
    public static void main(String args[]) {
        CodepointStream reader = new CodepointStream(
                new InputStreamReader(System.in, StandardCharsets.UTF_8));
        try {
            System.out.print("> ");
            int code = reader.read();
            while (code != -1) {
                String s =
                        String.format("Code %x is `%s', %s.",
                                code,
                                Character.getName(code),
                                new String(Character.toChars(code)));
                System.out.println(s);
                code = reader.read();
            }
        } catch (Exception e) {
        }
    }
}

Тогда ваш вывод станет:

> keyboard ⌨. pizza ?
Code 6b is `LATIN SMALL LETTER K', k.
Code 65 is `LATIN SMALL LETTER E', e.
Code 79 is `LATIN SMALL LETTER Y', y.
Code 62 is `LATIN SMALL LETTER B', b.
Code 6f is `LATIN SMALL LETTER O', o.
Code 61 is `LATIN SMALL LETTER A', a.
Code 72 is `LATIN SMALL LETTER R', r.
Code 64 is `LATIN SMALL LETTER D', d.
Code 20 is `SPACE',  .
Code 2328 is `KEYBOARD', ⌨.
Code 2e is `FULL STOP', ..
Code 20 is `SPACE',  .
Code 70 is `LATIN SMALL LETTER P', p.
Code 69 is `LATIN SMALL LETTER I', i.
Code 7a is `LATIN SMALL LETTER Z', z.
Code 7a is `LATIN SMALL LETTER Z', z.
Code 61 is `LATIN SMALL LETTER A', a.
Code 20 is `SPACE',  .
Code 1f355 is `SLICE OF PIZZA', ?.
Code a is `LINE FEED (LF)', 
.

Чтение кодовой точки текстового потока по кодовой точке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение кодовой точки текстового потока по кодовой точке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов