Как можно провести исследование чувствительности, чтобы достичь оптимального моделирования скрытого распределения Дирихле для рефератов на 230 тыс. С tex2vec? - PullRequest
0 голосов
/ 19 октября 2019

Я заинтересован в получении хороших гиперпараметров, чтобы получить, если не лучший, действительно хороший LDA для классификации текста.

Я заинтересован в программировании некоторого графика, подобного приведенному ниже 1 , только для LDA, чтобы узнать, сколько тем хорошо. А также найти способ программирования графа типа 2 & 3 со строкой, в которой указано, как они влияют на недоумение с данными.

Дирихлегиперпараметр альфа влияет на растерянность

средняя внутренняя согласованность тем с использованием LDA

гиперпараметр Дирихле β влияет на растерянность

сэтот код:

lda_model <- LDA$new(n_topics = 10)
doc_topic_distr <- 
  lda_model$fit_transform(x = dtm,  progressbar = F) 

new_doc_topic_distr = lda_model$transform(sample.dtm)

perplexity(sample.dtm, topic_word_distribution = lda_model$topic_word_distribution, doc_topic_distribution = new_doc_topic_distr)

...