Как сохранить тематическую модель в R и запустить ее на разных данных - PullRequest
0 голосов
/ 05 мая 2018

Я довольно новичок в тематических моделях. У меня есть два корпуса документов, и я хочу сравнить, как часто в разных корпусах встречаются одни и те же темы. Я выполнил тематическую модель с 40 темами на комбинированном образце документов обеих корпораций. Теперь я хочу сохранить модель и запустить ее отдельно для двух корпусов. Я использую пакет тематических моделей и подумал, что мне нужно заполнить save = 1 (см. Ниже), но я не уверен. Кто-нибудь знает, как это сделать?

control_LDA_VEM <-
+    list(estimate.alpha = TRUE, alpha = 50/k, estimate.beta = TRUE,
+         verbose = 0, prefix = tempfile(), save = 1, keep = 0,
+         seed = as.integer(Sys.time()), nstart = 1, best = TRUE,
+         var = list(iter.max = 500, tol = 10^-6),
+         em = list(iter.max = 1000, tol = 10^-4),
+         initialize = "random")

1 Ответ

0 голосов
/ 06 мая 2018

Параметр save фактически используется для сохранения / не сохранения промежуточных результатов, используя параметр prefix, чтобы указать место для сохранения результатов (tempfile() создает системное местоположение для вас).

Чтобы использовать сохраненную модель LDA, вы можете просто использовать имя модели при следующем вызове LDA(). Вы также можете изменить параметры управления с помощью вызова. Предполагая, что вы разделили желаемый DTM на обучающие и тестовые наборы, вот идея:

lda.train <- LDA(train, k = 10, control = control_LDA_VEM)
lda.test <- LDA(test, model=lda.train, control = list(estimate.beta = FALSE)

Эта ссылка может быть вам полезна.

...