Мне нужно взять абзац текста и извлечь из него список «тегов». Большая часть этого довольно проста. Однако теперь мне нужна помощь, чтобы остановить список слов, чтобы избежать дубликатов. Пример: Сообщество / Сообщества
Я использовал реализацию алгоритма Портера Стеммера (кстати, я пишу на PHP):
http://tartarus.org/~martin/PorterStemmer/php.txt
Это работает, до определенного момента, но не возвращает "настоящие" слова. В приведенном выше примере используется "commun".
Я пробовал "Снежок" (предлагается в другой теме переполнения стека).
http://snowball.tartarus.org/demo.php
Для моего примера (сообщество / сообщества) Снежок связан с "communiti".
Вопрос
Существуют ли какие-либо другие алгоритмы, которые будут это делать? Кто-нибудь еще решил эту проблему?
В настоящее время я думаю, что я мог бы использовать алгоритм стволовых символов, чтобы избежать дубликатов, а затем выбрать самое короткое слово, с которым я столкнулся, в качестве фактического слова для отображения.