У меня есть вопрос о функции «аугмента» из учебника Силге и Робинсона «Текстовое копирование с помощью R: аккуратный подход». Запустив LDA на корпусе, я применяю «аугмент», чтобы назначать темы каждому слову.
Я получаю результаты, но я не уверен, что происходит "под капотом" за "дополнением", то есть как определяется тема для каждого слова с использованием байесовской структуры. Это просто основано на формуле условной вероятности и оценивается после подбора LDA, используя p (topic | word) = p (word | topic) * p (topic) / p (word)?
Буду признателен, если кто-нибудь предоставит статистические данные о том, как "augment" делает это Не могли бы вы также предоставить ссылки на документы, где это задокументировано.