Что будет дальше после Тематического моделирования в LDA - PullRequest
0 голосов
/ 13 июня 2018

Я новичок в теме моделирования.

Так что я надеюсь, что кто-то опытный сможет ответить на мои вопросы.Вот упрощенный формат моих данных: 1. У меня есть CSV-файл размером 1000 * 2.(смесь тем) 2. Каждая строка представляет собой документ и идентификатор документа.каждый документ может состоять из нескольких строк, и документ может выглядеть следующим образом: например, фильм о Гарри Поттере.Мне нравится смотреть.

Итак, я хотел найти естественные кластеры / темы из моделей тем и вручную назначить метки кластерам на основе терминов TOP.

Таким образом, я разложил каждый документ на отдельные токены и использовал LDA, а затем использовал наименьший показатель недоумения, чтобы получить оптимальный кластер.

После использования LDA я построил Визуализации наиболее часто встречающихся терминов длякаждая тема.

Тем не менее, 1. Я не уверен, должен ли я делать би / п грамм - если да, то как это сделать?Потому что я знаю, что есть некоторые термины, которые должны встречаться вместе.2. Нужно ли использовать сетевой график, чтобы увидеть, как различные термины соотносятся друг с другом?Или разные темы связывают вместе?3. Не уверен, правильно ли я поступаю

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...