Было немного сложно найти документацию по этому вопросу, но OpenNLP ожидает, что данные обучения будут предварительно токенизированы, см. здесь :
Данные могут быть преобразованы в формат обучения OpenNLP. Что является одним предложением в строке. Также доступны некоторые другие форматы. Предложение должно быть размечено и содержать интервалы, которые отмечают сущности.
Это также может быть выведено из приведенного вами примера на английском, поскольку до последнего периода есть пробел. Как правило, данные обучения CRF обычно предварительно токенизируются, поскольку это облегчает оценку по всем программным пакетам.
Когда предложения разбиты на токены, OpenNLP должен нормально работать с японским языком, поскольку на самом деле его не волнует, какие строки.