http://www.icu -project.org / содержит весь исходный код для icu4j, который IBM выпустила по лицензии с открытым исходным кодом. Это включает в себя материал анализа границ, такой как словарь и итераторы разрыва на основе правил.
Тем не менее, текстовый файл не подходит для просмотра. Я не уверен, что IBM выпустила бы их набор правил с открытым исходным кодом (поскольку это довольно большое технологическое преимущество для них). Вместо этого идея состоит в том, чтобы создать свой собственный набор правил, учебник которого здесь .
В том же учебнике говорится, что вы можете сбросить правила по умолчанию, выполнив:
RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator)
BreakIterator.getWordInstance(Locale.getDefault());
String defaultRules = rbbi.toString();