Улучшено извлечение ключевых слов для коротких документов - PullRequest
0 голосов
/ 26 ноября 2018

У меня есть большая база данных исторических событий с описаниями порядка 10-30 слов каждое.Я пытаюсь создать средство извлечения ключевых слов, которое будет разумно помечать каждый документ 1-3 граммами в отношении базы данных в целом, чтобы теги могли использоваться повторно как можно чаще.

TF-IDFэто первое, что приходит на ум, но у меня плохие результаты, например, с инструментом TFIDF Natural.js (который не использует n-грамм).

Я видел много интересных исследованийболее продвинутые методы ML (тематическая модель Biterm, неконтролируемая кластеризация и т. д.), но я не могу найти каких-либо полезных реализаций.Я что-то пропустил?

...