Я недавно покопался в LDA, это кажется довольно разумным, но у меня осталось несколько вопросов, на которые я не могу найти ответы.
Для Lda сначала представим корпус как вектор, где
word1 , word2 , word3 , wordN
document1 n n n n
document2 n n n n
documentN n n n n
Это говорит нам, сколько раз слово j из словаря появляется в документе i.
1-й вопрос)
Создаем ли мы словарь V случайно из слов из всех документов, или мы выбрали его так, чтобы каждое слово в V присутствовало в каждом документе хотя бы один раз?
далее мы создаем матрицу для каждого документа
topic1 topic2 topicN
word1 n n n
word2 n n n
word3 n n n
word4 n n n
Мы выбираем темы, которые хотим представить в наших документах, и произвольно назначаем слово для документа (wordi x topij = 1, если слово принадлежит теме, 0 в противном случае)
далее для каждого слова мы вычисляем их новую тему по формуле
P = P1 * P2
Где
P1 = Probability( topic T | document d )
P2 = Probability( word W | topic T )
Теперь новой теме K присвоено слово W с вероятностью P.
2-й вопрос)
Какую тему мы выбрали в качестве T и какой теме мы назначаем вероятность P для слова W?
Я не смог найти ответ на этот вопрос.
Спасибо за ответ