У меня есть корпус, состоящий из около 160 000 документов. Я хочу сделать тематическое моделирование с использованием LDA в R (в частности, функции lda.collapsed.gibbs.sampler в lda package).
Я хочу определить оптимальное количество тем. Кажется, что общая процедура состоит в том, чтобы иметь вектор номеров тем, например, от 1 до 100, затем запустить модель 100 раз, и найти ту, которая имеет наибольшее среднее гармоническое или самое малое недоумение.
Однако, учитывая большое количество документов, оптимальное количество тем может легко достигать нескольких сотен или даже тысяч. Я считаю, что с увеличением количества тем время вычислений значительно возрастает. Даже если я использую параллельные вычисления, это займет несколько дней или недель.
Интересно, есть ли лучший (эффективный по времени) способ выбрать оптимальное количество тем? или есть предложение сократить время вычислений?
Любое предложение приветствуется.