Изменение списка стоп-слов - PullRequest
       28

Изменение списка стоп-слов

0 голосов
/ 15 октября 2018

Я хотел бы настроить кластеры carrot2, чтобы избежать меток, которые не начинаются с предлогов - для русского языка довольно странно видеть слово в грамматическом (не номинативном) слове и не иметь предлога.

Кластеризация выполняется с использованием Apache Solr.

Примеры:

Минске ([in] Minsk, missing preposition В in the beginning).
Самом Деле ([in] fact, missing preposition На in the beginning).

Я пробовал две независимые вещи:

  1. настройка ядра / кластеризация /carrot2 / stopwords.ru - и удалите оттуда предлоги в вопросах
  2. распакуйте carrot2-mini-3.9.0.jar, удалите записи с stopwords.ru и упакуйте обратно в банку.

Ничто из вышеперечисленного не влияет на метки кластера.Есть ли что-то очевидное, что можно попробовать?Или, может быть, изменить подход к настройке в целом?

Спасибо!

1 Ответ

0 голосов
/ 16 октября 2018

Удаление предлогов из файлов стоп-слов должно помочь.С измененными файлами стоп-слов предлоги все еще могут отсутствовать из-за статистики данных - если некоторые вхождения Минска имеют префикс «in», а другие нет, алгоритм может выбрать более короткую версию (без предлогов) какболее представительный.

Метки в core/clustering/carrot2/stopwords.ru должны иметь приоритет над метками, содержащимися в carrot2-mini-3.9.0.jar.

Когда дело доходит до алгоритма кластеризации Lingo, нетпрямой способ напрямую влиять на количество слов в метке, но вы можете попробовать увеличить повышение метки фразы и понизить усеченный порог метки .

Полный список алгоритмов кластеризациипараметры в Документация Carrot2 .Переопределения параметров можно передавать как часть запросов кластеризации результатов Solr .

...