Как ограничить темы LDA различными терминами? - PullRequest
0 голосов
/ 16 октября 2018

Я использую gensim, чтобы сделать LDA на корпусе тезисов arXiv в категории stats.ML

Моя проблема в том, что между темами много общего (выбираю ли я 5, 10 или 50 тем).Каждая тема имеет распределение слов, таких как «модель», «алгоритм» или «проблема».Как темы можно считать дифференцируемыми, если многие из них имеют одинаковые термины?

Использование pyLDAvis было для меня поучительным.Это распределение по теме № 3: topics with lambda equal one

Но когда я отказываюсь lambda = 0.08, возникает реальная природа темы (ML в медицинских приложениях): topics with low lambda

Итак, мой вопрос: как я могу раскрыть эти отличительные термины в процессе обучения моей модели LDA (без pyLDAvis)?А также, улучшится ли производительность (в отличие от способности интерпретировать) модели, если я смогу заставить ее игнорировать эти общие, недискриминационные термины?

У меня есть несколько идей, которые я хочу попробовать, но мне хотелось бы получить больше рекомендаций:

  • Фильтрация 50 самых распространенных терминов из моего словаря.Хотя я думаю, что это немного помогло, я не уверен, что это правильный подход
  • Настройка eta в gensim.models.LdaModel

Моя цель в конечном итоге взять новыйзадокументируйте и раскрасьте слова, основываясь на том, какие слова относятся к каким темам, а также предложите документы, наиболее похожие на входной документ.

Я довольно новичок с gensim, и это мой первый вопрос SOтак что, если я чем-то совершенно не в себе, пожалуйста, дайте мне знать ;-).Спасибо

...