Существует ли простой и стандартный способ настройки стеблера Lucene? - PullRequest
0 голосов
/ 01 октября 2018

Я использую Lucene 7.x и ItalianStemmer.Я видел код класса ItalianStemmer, и, кажется, это займет много времени, чтобы понять.Итак, я ищу быстрый (возможно, стандартный) способ настройки итальянского стеммера, без расширения ItalianStemmer или SnowballProgram, потому что у меня есть несколько дней.

Дело в том, что я не понимаю, почему имя "saluto "(приветствие) происходит от" sal ".Его следует обозначать как «салют», так как глагол «приветствовать» («приветствовать») означает «салют».Кроме того, «sala» (комната) и «sale» (комнаты) также обозначены как «sal», что вводит в заблуждение, поскольку они имеют разное значение.

1 Ответ

0 голосов
/ 01 октября 2018

Стандартным способом было бы скопировать источник и создать свой собственный.

Стемминг - это эвристический процесс, основанный на правилах.Он предназначен для создания основ, которые хотя и несовершенны, но обычно достаточно хороши для облегчения поиска.В нем нет словаря сопряженных слов и их основ для изменения.-uto - один из суффиксов глаголов, удаленных из слов итальянским родословным снежного кома , как описано здесь .Вы можете создать свою собственную версию, удалив этот суффикс из списка, но, вероятно, вы создадите больше проблем, чем решаете, все сказали.

Инструмент, который возвращает правильное корневое слово, обычно называется lemmatizer , и я не верю, что кто-то придет с Lucene, из коробки.Морфологический анализ, как правило, медленнее и сложнее.Если это важно для вашего варианта использования, вы можете найти итальянский лемматизатор и использовать его в пользовательском фильтре или предварительно обработать текст, прежде чем передать его в анализатор.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...