Я начал играть с Lucene.NET сегодня и написал простой тестовый метод для индексации и поиска в файлах исходного кода.Проблема состоит в том, что стандартные анализаторы / токенизаторы обрабатывают все имя идентификатора исходного кода случая верблюда как один токен.
Я ищу способ обработки идентификаторов верблюжьих случаев, таких как MaxWidth
, в три токена: maxwidth
, max
и width
.Я искал такой токенизатор, но не смог его найти.Прежде чем написать свой: есть ли что-то в этом направлении?Или есть лучший подход, чем писать токенизатор с нуля?
ОБНОВЛЕНИЕ: В конце я решил испачкать руки и сам написал CamelCaseTokenFilter
.Я напишу об этом в своем блоге и обновлю вопрос.