Файл правил разрыва слова - PullRequest
0 голосов
/ 18 февраля 2009

IBM, по-видимому, открыла исходный код своего ICU для поддержки Unicode и Globalization, частью которого является локатор текстовых границ для обнаружения мест, где в тексте могут быть разрывы.

Однако обнаружение прерываний основано на правилах, и я нигде не могу найти файлы правил.

Где я могу получить текстовые файлы с правилами разбиения по словам для com.ibm.icu.text.BreakIterator и com.ibm.icu.text.RuleBasedBreakIterator?

1 Ответ

2 голосов
/ 18 февраля 2009

http://www.icu -project.org / содержит весь исходный код для icu4j, который IBM выпустила по лицензии с открытым исходным кодом. Это включает в себя материал анализа границ, такой как словарь и итераторы разрыва на основе правил.

Тем не менее, текстовый файл не подходит для просмотра. Я не уверен, что IBM выпустила бы их набор правил с открытым исходным кодом (поскольку это довольно большое технологическое преимущество для них). Вместо этого идея состоит в том, чтобы создать свой собственный набор правил, учебник которого здесь .

В том же учебнике говорится, что вы можете сбросить правила по умолчанию, выполнив:

RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator)
    BreakIterator.getWordInstance(Locale.getDefault());
String defaultRules = rbbi.toString();
...