Как извлечь один topi c для одного документа, используя LDA - PullRequest
1 голос
/ 22 апреля 2020

Мы знаем, что LDA предназначен для работы с рядом документов и извлечения из них k тем. Однако наша цель состоит в том, чтобы извлечь один единственный topi c для одного отдельного документа, используя LDA. Наш первый подход:

  1. Очистить данные (строчные, лемматизировать, удалить стоп-слова, знаки пунктуации, числа и т. Д. c).
  2. Векторизация с использованием Countvectorize.
  3. LDA (1 topi c)

Одно интересное наблюдение состоит в том, что 10 лучших ключевых слов в выводе LDA - это именно те 10 слов, которые чаще всего встречаются в документе (на основе общего подсчета). Мы хотели бы задать два вопроса:

  1. Имеет ли это наблюдение какой-либо смысл?
  2. Есть ли другие способы достичь нашей цели?
...