Из JavaDoc.
Класс BreakIterator реализует
методы для определения местоположения
границы в тексте. Экземпляры
BreakIterator поддерживает текущий
позиционировать и сканировать возвращаемый текст
индекс символов где
границы случаются. Внутренне
BreakIterator сканирует текст, используя
CharacterIterator, и, таким образом, может
сканировать текст, удерживаемый любым объектом
реализуя этот протокол.
StringCharacterIterator используется для
проверять объекты String, переданные в setText.
Вы используете предоставленные заводские методы
этим классом для создания экземпляров
различные типы итераторов разрыва. В
в частности, используйте getWordIterator,
getLineIterator, getSentenceIterator,
и getCharacterIterator для создания
BreakIterators, которые выполняют слово,
строка, предложение и граница символа
анализ соответственно. Один
BreakIterator может работать только на одном
единица (слово, строка, предложение и т. д.
на). Вы должны использовать другой итератор
для каждой единицы анализа границ вы
хочу выполнить.
Линейный анализ границ определяет
где текстовая строка может быть разбита, когда
линия Упаковочное. Механизм правильно
обрабатывает пунктуацию и переносы
слова.
Анализ границ предложений позволяет
выбор с правильной интерпретацией
периодов в пределах чисел и
сокращения и трейлинг
знаки препинания, такие как кавычки
знаки и скобки.
Анализ границы слова используется
функции поиска и замены, а также
как в приложениях для редактирования текста
которые позволяют пользователю выбирать слова
с двойным кликом. Выбор слова
обеспечивает правильное толкование
знаки препинания внутри и после
слова. Персонажи, которые не являются частью
слово, такое как символы или знаки препинания
пометки, есть разрывы слов с обеих сторон.
Анализ границ символов позволяет
пользователи взаимодействуют с персонажами как
они ожидают, например, когда
перемещая курсор по тексту
строка. Анализ границ персонажа
обеспечивает правильную навигацию по
строки символов, независимо от того, как
персонаж сохраняется. Например,
акцентированный символ может быть сохранен
как базовый характер и диакритический
отметка. Что пользователи считают
символ может отличаться между
языки.
BreakIterator предназначен для использования с
только естественные языки. Не использовать
этот класс для токенизации программирования
язык.