LDA и выбор темы - PullRequest
       7

LDA и выбор темы

0 голосов
/ 28 апреля 2018

Я недавно покопался в LDA, это кажется довольно разумным, но у меня осталось несколько вопросов, на которые я не могу найти ответы.

Для Lda сначала представим корпус как вектор, где

           word1 , word2 , word3 , wordN
document1   n       n        n       n
document2   n       n        n       n
documentN   n       n        n       n

Это говорит нам, сколько раз слово j из словаря появляется в документе i.

1-й вопрос)

Создаем ли мы словарь V случайно из слов из всех документов, или мы выбрали его так, чтобы каждое слово в V присутствовало в каждом документе хотя бы один раз?

далее мы создаем матрицу для каждого документа

        topic1  topic2 topicN
 word1   n         n     n
 word2   n         n     n
 word3   n         n     n
 word4   n         n     n

Мы выбираем темы, которые хотим представить в наших документах, и произвольно назначаем слово для документа (wordi x topij = 1, если слово принадлежит теме, 0 в противном случае)

далее для каждого слова мы вычисляем их новую тему по формуле

P = P1 * P2

Где

P1 = Probability( topic T | document d )
P2 = Probability( word W | topic T )

Теперь новой теме K присвоено слово W с вероятностью P.

2-й вопрос)

Какую тему мы выбрали в качестве T и какой теме мы назначаем вероятность P для слова W? Я не смог найти ответ на этот вопрос.

Спасибо за ответ

...