Question

Я пытался применить LDA к моему набору данных, чтобы выполнить топи c моделирование. Но каждый раз, когда я запускаю модель LDA, код просто запускается неопределенно долго, прежде чем мне нужно выключить ядро. Там нет ошибки. Размер набора данных - 2 ГБ

Я пробовал LDA-модель из обеих библиотек gensim, а также из библиотеки pySpark.mllib.clustering. Я столкнулся с той же проблемой. Все остальные этапы предварительной обработки работают нормально! Я попытался запустить данные GCP pro c, но не повезло.

    '''
     from pyspark.mllib.clustering import LDA, LDAModel
     from pyspark.mllib.linalg import Vector, Vectors
     num_topics = 10
     max_iterations = 100
     lda_model = LDA.train(result_tfidf_rdd.mapValues(Vectors.fromML).map(list), k=num_topics, 
     maxIterations=max_iterations)
    '''

изображение набора данных

LDA с использованием PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

LDA с использованием PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы