Разница между Solr SnowballPorterFilterFactory и ПортугальскимStemFilterFactory - PullRequest
1 голос
/ 21 октября 2019

У Solr есть SnowballPorterFilterFactory, которую вы можете использовать с языковым параметром

  <filter class="solr.SnowballPorterFilterFactory" language="Portuguese" />

У Solr также есть некоторые родословные для конкретного языка, такие как KoreanStemFilterFactory. Я прочитал документацию , но не могу выяснить, в чем разница между ними.

1 Ответ

1 голос
/ 22 октября 2019

Из источник комментирует :

Португальский стеммер, реализующий алгоритм RSLP (Removedor de Sufixos da Lingua Portuguesa). Иногда его также называют стеммером Оренго.

Используемый алгоритм специально адаптирован к потребностям португальского языка и знает о различных классах слов и о том, как они должны основываться на португальском языке.

Стеемер Snowball, тем не менее, представляет собой общий движок стеммера, в котором вы предоставляете ему словарь для работы, то есть суффиксы, которые должны быть основаны, и т. Д. Они не позволяют получить те же знания о том, как классифицировать и ставитьконкретные классы слов.

Я не вижу причин, по которым вы хотите использовать версию Snowball, когда у вас есть португальский RSLP, но я не делал никакой работы на португальском языке (однако я сделалвручную обновить норвежский для некоторых крайних случаев, которые Снежок не ловил по умолчанию).

...