Быстрый способ определения оптимального количества тем для большого корпуса с использованием LDA - PullRequest
0 голосов
/ 05 июля 2018

У меня есть корпус, состоящий из около 160 000 документов. Я хочу сделать тематическое моделирование с использованием LDA в R (в частности, функции lda.collapsed.gibbs.sampler в lda package).

Я хочу определить оптимальное количество тем. Кажется, что общая процедура состоит в том, чтобы иметь вектор номеров тем, например, от 1 до 100, затем запустить модель 100 раз, и найти ту, которая имеет наибольшее среднее гармоническое или самое малое недоумение.

Однако, учитывая большое количество документов, оптимальное количество тем может легко достигать нескольких сотен или даже тысяч. Я считаю, что с увеличением количества тем время вычислений значительно возрастает. Даже если я использую параллельные вычисления, это займет несколько дней или недель.

Интересно, есть ли лучший (эффективный по времени) способ выбрать оптимальное количество тем? или есть предложение сократить время вычислений?

Любое предложение приветствуется.

1 Ответ

0 голосов
/ 07 июля 2018

Начните с некоторой догадки в середине. уменьшите и увеличьте количество тем, скажем, 50 или 100 вместо 1. Проверьте, каким образом увеличивается показатель когерентности. Я уверен, что это сойдет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...