Разделители по умолчанию для стандартного анализатора Java Lucene? - PullRequest
2 голосов
/ 03 июня 2011

Я ищу все разделители, по которым стандартный анализатор Java Lucene токенизирует входную строку.

необходимо знать все разделители, которые по умолчанию используются для токенизации.

1 Ответ

0 голосов
/ 03 июня 2011

Я знаю (из Lucene в действии), что все символы, которые не являются a-zA-Z или вариациями a-zA-Z, которые имеют диакритические знаки , используются в качестве разделителей,в том числе цифры.Таким образом, вы можете разделить Mc'Donald на «Mc» и «Donald», вы можете иметь «Web2.0» с токеном «Web» и так далее.Лучше всего сделать тест и ввести всевозможные символы, а затем опубликовать свои результаты здесь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...