В Lucene, как TokenFilter может испускать более одного термина? - PullRequest
2 голосов
/ 17 июня 2011

Я работаю с Lucene 3.2. Как я могу использовать TokenFilter, который не только фильтрует / изменяет термин, но также может вставлять в поток другие термины?

Например, я хочу фильтр, который принимает в качестве входных данных "tv42lcd" и вставляет в поток слова "tv42lcd", "tv", "42", "lcd".

Я знаю, что мог бы сделать это, внедрив свой собственный токенизатор. Но я скорее все еще использую предоставленный StandardTokenizer.

1 Ответ

1 голос
/ 18 июня 2011

Вы всегда можете смешать значение по умолчанию с пользовательским: используйте логику StandardTokenizer, где это возможно, затем оберните его вывод и добавьте пользовательский токенизацию вверху.Вы можете достичь этого путем расширения, но почти всегда лучше использовать композицию .

...