Мы знаем, что LDA предназначен для работы с рядом документов и извлечения из них k тем. Однако наша цель состоит в том, чтобы извлечь один единственный topi c для одного отдельного документа, используя LDA. Наш первый подход:
- Очистить данные (строчные, лемматизировать, удалить стоп-слова, знаки пунктуации, числа и т. Д. c).
- Векторизация с использованием Countvectorize.
- LDA (1 topi c)
Одно интересное наблюдение состоит в том, что 10 лучших ключевых слов в выводе LDA - это именно те 10 слов, которые чаще всего встречаются в документе (на основе общего подсчета). Мы хотели бы задать два вопроса:
- Имеет ли это наблюдение какой-либо смысл?
- Есть ли другие способы достичь нашей цели?