Импорт результатов TF-IDF в Carrot2 - PullRequest
0 голосов
/ 15 января 2020

Мне нравится, как работает Carrot2. В настоящее время я использую в основном XML импорт. Я хотел бы импортировать XML файл с результатами TF-IDF вместо фрагментов. Это позволило бы мне подготовить данные, когда я sh.

Я пытался передать ключевые слова TF-IDF (без метрик) в отрывки, и это сработало как-то. К сожалению, Carrot2 снова выполняет TF-IDF для моих данных, и результаты посредственные. Было бы здорово, если бы я мог передать свои ключевые слова вместе с метриками важности, а затем использовать Carrot2 только для точной настройки результатов.

Я искал такое решение в API, но не смог найти его. Возможно ли это как-то?

1 Ответ

0 голосов
/ 20 января 2020

Carrot2, к сожалению, не поддерживает прямой ввод данных TF-IDF. Один хак, который вы можете попробовать, - это кормить каждое ключевое слово через точку (.), Повторяя каждое ключевое слово столько раз, сколько указано его метриками важности (округляется / масштабируется до ближайшего целого числа). Разделение ключевых слов с точкой гарантирует, что Carrot2 не попытается объединить смежные ключевые слова в фразы.

...