Question

У меня есть корпус, состоящий из около 160 000 документов. Я хочу сделать тематическое моделирование с использованием LDA в R (в частности, функции lda.collapsed.gibbs.sampler в lda package).

Я хочу определить оптимальное количество тем. Кажется, что общая процедура состоит в том, чтобы иметь вектор номеров тем, например, от 1 до 100, затем запустить модель 100 раз, и найти ту, которая имеет наибольшее среднее гармоническое или самое малое недоумение.

Однако, учитывая большое количество документов, оптимальное количество тем может легко достигать нескольких сотен или даже тысяч. Я считаю, что с увеличением количества тем время вычислений значительно возрастает. Даже если я использую параллельные вычисления, это займет несколько дней или недель.

Интересно, есть ли лучший (эффективный по времени) способ выбрать оптимальное количество тем? или есть предложение сократить время вычислений?

Любое предложение приветствуется.

Vikas Goyal · Answer 1 · 07 июля 2018

Начните с некоторой догадки в середине. уменьшите и увеличьте количество тем, скажем, 50 или 100 вместо 1. Проверьте, каким образом увеличивается показатель когерентности. Я уверен, что это сойдет.

Быстрый способ определения оптимального количества тем для большого корпуса с использованием LDA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Быстрый способ определения оптимального количества тем для большого корпуса с использованием LDA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы