Stemming - примеры кода или проекты с открытым исходным кодом? - PullRequest
6 голосов
/ 27 февраля 2009

Stemming - это то, что нужно в системах тегов. Я использую вкусно, и у меня нет времени, чтобы управлять и обрезать свои метки. Я немного более осторожен с моим блогом, но он не идеален. Я пишу программное обеспечение для встраиваемых систем, которое было бы гораздо более функциональным (полезным для пользователя), если бы оно включало в себя стволовые.

Например:
Разбираем
Parser
Разбор

Все это должно означать одно и то же для любой системы, в которую я их помещаю.

В идеале где-нибудь есть лицензированный BSD стеммер, но если нет, то где мне искать общие алгоритмы и методы для этого?

Кроме стеммеров BSD, есть ли еще какие-либо лицензированные стеммеры с открытым исходным кодом?

-Adam

Ответы [ 4 ]

5 голосов
/ 27 февраля 2009

Снежок Стеммер (C & Java) Я использовал привязку Python, PyStemmer

5 голосов
/ 27 февраля 2009

Ознакомьтесь с nltk toolkit , написанным на python. Имеет очень функциональный стемер .

2 голосов
/ 05 марта 2009

Другим вариантом для stemming будет WordNet, наряду с одним из его API . Некоторая базовая информация о стеммировании и лемматизации , включая описание алгоритма портерирования Портера, может быть найдена в Интернете в Введение в поиск информации .

1 голос
/ 27 февраля 2009

Lucene , я полагаю, имеет стеммер (и IIRC позволяет вам использовать свой собственный, если хотите).

РЕДАКТИРОВАТЬ: только что проверил, и Lucence ссылается на сайт Snowball , который, насколько я могу судить, является библиотекой с открытым кодом.

...