Неужели OpenNLP не может определить даты в формате «10 января 2009 года»? - PullRequest
0 голосов
/ 18 января 2011

OpenNLP (на Java) не может определить даты в формате «10 января 2010 г.» или «10 января 2010 г.». Я заменил все ',' в тексте пустой строкой "" перед использованием OpenNLP токенизатора, и он отлично работает для дат в форме "10 января 2010". Итак, я попытался заменить «th» на «,», но это не сработало. Как мы можем убедиться, что даты вышеупомянутых форм идентифицированы с OpenNLP?

Заранее спасибо

1 Ответ

0 голосов
/ 13 марта 2014

Для объяснения даты и формата поиска, этот более новый пост работает хорошо. В нем говорится о моделях, распознающих даты в контексте маркеров вокруг него, поскольку это статистическая модель.

Для описанного выше случая th, как говорится в комментарии, если вы хотите заменить th и the, то вы должны применить обе замены или, что еще лучше, сделать одну замену th пустой строкой.

...