LDA с использованием PySpark - PullRequest
0 голосов
/ 11 марта 2020

Я пытался применить LDA к моему набору данных, чтобы выполнить топи c моделирование. Но каждый раз, когда я запускаю модель LDA, код просто запускается неопределенно долго, прежде чем мне нужно выключить ядро. Там нет ошибки. Размер набора данных - 2 ГБ

Я пробовал LDA-модель из обеих библиотек gensim, а также из библиотеки pySpark.mllib.clustering. Я столкнулся с той же проблемой. Все остальные этапы предварительной обработки работают нормально! Я попытался запустить данные GCP pro c, но не повезло.

    '''
     from pyspark.mllib.clustering import LDA, LDAModel
     from pyspark.mllib.linalg import Vector, Vectors
     num_topics = 10
     max_iterations = 100
     lda_model = LDA.train(result_tfidf_rdd.mapValues(Vectors.fromML).map(list), k=num_topics, 
     maxIterations=max_iterations)
    '''

изображение набора данных

image of dataset

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...