Подробности за «дополнением» применительно к моделированию темы - PullRequest
0 голосов
/ 16 ноября 2018

У меня есть вопрос о функции «аугмента» из учебника Силге и Робинсона «Текстовое копирование с помощью R: аккуратный подход». Запустив LDA на корпусе, я применяю «аугмент», чтобы назначать темы каждому слову.

Я получаю результаты, но я не уверен, что происходит "под капотом" за "дополнением", то есть как определяется тема для каждого слова с использованием байесовской структуры. Это просто основано на формуле условной вероятности и оценивается после подбора LDA, используя p (topic | word) = p (word | topic) * p (topic) / p (word)?

Буду признателен, если кто-нибудь предоставит статистические данные о том, как "augment" делает это Не могли бы вы также предоставить ссылки на документы, где это задокументировано.

1 Ответ

0 голосов
/ 19 ноября 2018

Пакет tidytext с открытым исходным кодом и на GitHub, так что вы можете покопаться в коде для augment() для себя. Я бы посоветовал посмотреть на

  • augment() для LDA из тематических моделей пакета
  • augment() для структурной тематической модели из пакета stm

Чтобы узнать больше об этих подходах, есть отличная бумага / виньетка на структурной модели темы, и мне нравится статья Википедии для LDA .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...