Вопрос об алгоритме Портера Стеммера - PullRequest
1 голос
/ 06 ноября 2010

Я реализую поисковое приложение. Корпус больших текстовых документов. Во время обработки файла я пишу все слова и вызываю алгоритм Портера Стеммера Шаг1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).

Step1 избавляется от множественного числа и -ed или -ing ...

Я заметил, что слово «это» будет означать «thi».

Это нормальная работа алгоритма? Так как я хотел обозначить слово «это».

1 Ответ

1 голос
/ 06 ноября 2010

Из того, что вы описали, я догадываюсь, что this рассматривается как форма множественного числа в алгоритме Портера Стеммера и уменьшается до thi.

Я не нахожу явной ссылки на слова без множественного числа, заканчивающиеся s в статье Портера.

http://tartarus.org/~martin/PorterStemmer/def.txt

...