Я пытался применить LDA к моему набору данных, чтобы выполнить топи c моделирование. Но каждый раз, когда я запускаю модель LDA, код просто запускается неопределенно долго, прежде чем мне нужно выключить ядро. Там нет ошибки. Размер набора данных - 2 ГБ
Я пробовал LDA-модель из обеих библиотек gensim, а также из библиотеки pySpark.mllib.clustering. Я столкнулся с той же проблемой. Все остальные этапы предварительной обработки работают нормально! Я попытался запустить данные GCP pro c, но не повезло.
'''
from pyspark.mllib.clustering import LDA, LDAModel
from pyspark.mllib.linalg import Vector, Vectors
num_topics = 10
max_iterations = 100
lda_model = LDA.train(result_tfidf_rdd.mapValues(Vectors.fromML).map(list), k=num_topics,
maxIterations=max_iterations)
'''
изображение набора данных