Существует ли «лучший» токенизация для обучения NER в OpenNLP? Я заметил, что OpenNLP предоставляет токенайзер с максимальной энтропией, который позволяет вам создавать токены на основе обученной модели. Я также заметил, что OpenNLP предоставляет простой токенизатор. Если я использую тот же токенизатор во время выполнения, который использовал для обучения своей модели, имеет ли значение, какой токенизатор я использую?
Я бы предпочел использовать простой токенизатор для своего приложения.