Почему это так медленно при расчете показателя когерентности для LDA с использованием Gensim - PullRequest
0 голосов
/ 22 июня 2019

Я новичок в LDA, и когда я вычисляю оценку когерентности для моей модели LDA, используя gensim CoherenceModel, запуск занимает очень много времени.Тем не менее, учебная часть является относительно быстрой и в разумные сроки.Интересно, это из-за моего размера данных (около 250000 длинного текста) и есть ли способы ускорить этот процесс?Спасибо

Это мой код, который точно такой же, как учебник

from gensim.models import CoherenceModel
coherence_model_lda = CoherenceModel(model=lda_model_tfidf, texts=LDA_, dictionary=dictionary, coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()
print('\nCoherence Score: ', coherence_lda)

1 Ответ

1 голос
/ 29 июня 2019

Мера когерентности 'c_v', как известно, является самым медленным методом, но дает наилучшие результаты. Вы можете попробовать 'u_mass' для максимальной производительности.

Обратите внимание, что вам понадобятся только параметры модели, корпуса и когерентности для 'u_mass'.

Подробнее о разнице между этими двумя методами вы можете прочитать здесь: http://palmetto.aksw.org/palmetto-webapp/

...