Я хочу сделать немного базового иврита stemming.
Все примеры пользовательских анализаторов, которые я мог найти, всегда объединяют другие анализаторы и и фильтры, но никогда не выполняют никакой обработки на уровне строк.
Что мне нужно сделать, например, если я хочу создать анализатор, который для каждого термина в потоке, который он получает, испускает один или два термина по следующим правилам:
если входящий термин начинается с чего-то другого, то после «а» он должен быть передан как есть.
если входящий термин начинается с «а», то должны быть выбраны два термина: исходный и второй без начального «а» и с более низким усилением.
Так что если у документа есть «помощь в прочем», он вернет «помощь», «прочь» и «путь ^ 0,8».
Какие методы анализатора мне следует переопределить для этого?
(Указатель на подобный пример природы будет очень полезен).
Спасибо