Question

Мы знаем, что LDA предназначен для работы с рядом документов и извлечения из них k тем. Однако наша цель состоит в том, чтобы извлечь один единственный topi c для одного отдельного документа, используя LDA. Наш первый подход:

Очистить данные (строчные, лемматизировать, удалить стоп-слова, знаки пунктуации, числа и т. Д. c).
Векторизация с использованием Countvectorize.
LDA (1 topi c)

Одно интересное наблюдение состоит в том, что 10 лучших ключевых слов в выводе LDA - это именно те 10 слов, которые чаще всего встречаются в документе (на основе общего подсчета). Мы хотели бы задать два вопроса:

Имеет ли это наблюдение какой-либо смысл?
Есть ли другие способы достичь нашей цели?

Как извлечь один topi c для одного документа, используя LDA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как извлечь один topi c для одного документа, используя LDA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы