Можно ли использовать тематическое моделирование для одного документа? - PullRequest
0 голосов
/ 22 апреля 2019

Рационально ли использовать тематическое моделирование для одного документа или, если быть более точным, математически нормально использовать метод LDA-gibbs для одного документа. Также какова роль k и seed для одного, а также большого набора документов.

K и SEED являются переменными функции LDA (в r studio). Также дайте мне знать, если я ошибаюсь в этом вопросе.

Чтобы рассказать о своем проекте, я пытаюсь выяснить основные темы, которые можно использовать для представления содержания одного документа.

Я уже пробовал использовать k = 4,7,10. Часть моего вопроса также состоит в том, какое значение k должно быть лучше.

1 Ответ

0 голосов
/ 24 апреля 2019

Это действительно зависит от документа. Документом может быть книга на 700 страниц или одно предложение. Ваш k также будет зависеть от документа, я думаю, вы имеете в виду количество тем? Если ваш документ полностью содержит темы из Википедии, 1500, может быть уместно, если ваш документ представляет собой список комментариев о фильмах, тогда может быть уместно 20 тем. Оптимизация этого числа может быть выполнена методом локтя check 17 .

Семя может быть довольно случайным, это всего лишь ветвь, поэтому ваши результаты могут быть воспроизведены - оно запускается, если вы оставите его пустым. Я бы сказал, попробуй и проверь свою согласованность, посмотри на свои темы и, если все выглядит правильно, тогда ты можешь обучить LDA на одном документе. Один документ должен обрабатываться довольно быстро.

Вот пример использования параметров семени в python. Мой набор данных составляет 1 048 575 строк, обратите внимание, что начальное число намного выше:

ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow_corpus,
   num_topics=20, alpha =.1, id2word=dictionary, iterations = 1000, 
   random_seed = 569356958)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...