Как разбить японский текст? - PullRequest
0 голосов
/ 03 сентября 2018

Каков наилучший способ разделения японского текста с использованием Java? Например, для приведенного ниже текста:

こんにちは。私の名前はオバマです。私はアメリカに行く。

Мне нужен следующий вывод:

こんにちは
私の名前はオバマです
私はアメリカに行く

Возможно ли использовать Kuromoji?

1 Ответ

0 голосов
/ 04 сентября 2018

Вы можете использовать java.text.BreakIterator.

String TEXT = "こんにちは。私の名前はオバマです。私はアメリカに行く。";
BreakIterator boundary = BreakIterator.getSentenceInstance(Locale.JAPAN);
boundary.setText(TEXT);
int start = boundary.first();
for (int end = boundary.next();
     end != BreakIterator.DONE;
     start = end, end = boundary.next()) {
     System.out.println(TEXT.substring(start, end));
}

Вывод этой программы:

こんにちは。
私の名前はオバマです。
私はアメリカに行く。

Вы не можете использовать Kuromoji для поиска японских границ предложений. Он может разбить предложение на слова.

...