Я новичок в обработке естественного языка и нашел этот интересный учебник, который описывает, как выполнять моделирование темы.
Доступно данных для этого учебника
Исходный код: здесь
Приведенный выше код может обеспечить моделирование тем с использованием LDA и генерирует число k тем.У меня вопрос, как я могу найти, какой документ относится к какой теме (кластер)?Как и в примере, показанном на рисунке здесь .Мне интересно что-то вроде:
publish_date: 20030219 с текстом (aba ...) относится к кластеру темы 1 или ..
Я уже прочитал пост, такой как: [1] или [2] но все же я не смог получить свой ответ.
Я также попробовал набор инструментов для анализа текста Matlab, но я не мог понять этоеще нет.
Было бы здорово, если бы вы могли мне помочь.