почему результаты алгоритма портера стеммера у меня не соответствуют коренному слову, которое должно быть? - PullRequest
1 голос
/ 23 декабря 2010

Мне нужно использовать алгоритм портера, чтобы получить слово ствола в моем приложении, но когда я проверяю алгоритм, который я получаю из http://www.tartarus.org/~martin/PorterStemmer,, результат обработки не дает мне правильное слово ствола, например: счастливый -> happyi вирус -> виру так далее Вы можете помочь мне решить это?

1 Ответ

2 голосов
/ 23 декабря 2010

Цитирование по вашей ссылке :

2. Почему стеммер не производит правильные слова?

Часто считается грубой ошибкой то, что алгоритм стволов не оставляет реального слова после удаления ствола. Но цель ограничения состоит в том, чтобы свести воедино различные формы слова, а не отображать слово в его форму «парадигмы».

И связано с этим

3. Почему есть ошибки?

Вопрос обычно возникает в форме: почему слово X должно быть связано с x1, если можно было бы ожидать, что оно будет связано с x2? Важно помнить, что алгоритм стемминга не может достичь совершенства. В итоге это улучшит (или может) улучшить работу ИК, но в отдельных случаях может иногда приводить к ошибкам. Конечно, это совсем не то, что предлагать дополнительное правило, которое может быть включено в стеммер для улучшения его производительности.

...