Существует ли «лучший» токенизация для обучения NER в OpenNLP? - PullRequest
0 голосов
/ 01 мая 2018

Существует ли «лучший» токенизация для обучения NER в OpenNLP? Я заметил, что OpenNLP предоставляет токенайзер с максимальной энтропией, который позволяет вам создавать токены на основе обученной модели. Я также заметил, что OpenNLP предоставляет простой токенизатор. Если я использую тот же токенизатор во время выполнения, который использовал для обучения своей модели, имеет ли значение, какой токенизатор я использую?

Я бы предпочел использовать простой токенизатор для своего приложения.

1 Ответ

0 голосов
/ 14 июня 2018

Для большинства приложений качество вашего токенизатора не очень важно, и если вы используете тот же самый на тренировке и после вас должно быть в порядке.

Однако единственный способ убедиться в этом - попробовать разные токенизаторы и сравнить результаты - для некоторых приложений разница между хорошим токенизатором и отличным может иметь значение.

...