Question

У меня есть большая база данных исторических событий с описаниями порядка 10-30 слов каждое.Я пытаюсь создать средство извлечения ключевых слов, которое будет разумно помечать каждый документ 1-3 граммами в отношении базы данных в целом, чтобы теги могли использоваться повторно как можно чаще.

TF-IDFэто первое, что приходит на ум, но у меня плохие результаты, например, с инструментом TFIDF Natural.js (который не использует n-грамм).

Я видел много интересных исследованийболее продвинутые методы ML (тематическая модель Biterm, неконтролируемая кластеризация и т. д.), но я не могу найти каких-либо полезных реализаций.Я что-то пропустил?

Улучшено извлечение ключевых слов для коротких документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Улучшено извлечение ключевых слов для коротких документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы