Я хотел бы настроить кластеры carrot2, чтобы избежать меток, которые не начинаются с предлогов - для русского языка довольно странно видеть слово в грамматическом (не номинативном) слове и не иметь предлога.
Кластеризация выполняется с использованием Apache Solr.
Примеры:
Минске ([in] Minsk, missing preposition В in the beginning).
Самом Деле ([in] fact, missing preposition На in the beginning).
Я пробовал две независимые вещи:
- настройка ядра / кластеризация /carrot2 / stopwords.ru - и удалите оттуда предлоги в вопросах
- распакуйте carrot2-mini-3.9.0.jar, удалите записи с stopwords.ru и упакуйте обратно в банку.
Ничто из вышеперечисленного не влияет на метки кластера.Есть ли что-то очевидное, что можно попробовать?Или, может быть, изменить подход к настройке в целом?
Спасибо!