Надлежащий Solr Tokenizer для токенизации текста с сохранением специальных символов - PullRequest
1 голос
/ 17 ноября 2011

Какой токенизатор подходит для этого:

input: "This-something is something."
output: ["] [This] [-] [something] [is] [something] [.] ["]

Я пробовал с solr.WordDelimiterFilterFactory, но это удаляет все специальные символы. Также пробовал solr.KeepWordFilterFactory, со всеми специальными символами в keepwords.txt. Но это тоже не работает.

Есть предложения? Я на Solr 3.4.

1 Ответ

2 голосов
/ 17 ноября 2011

Не думайте, что для ваших конкретных требований есть готовый токенайзер.
Вы можете создать новый, соответствующий вашим требованиям, и легко использовать Solr.

...