Ошибка выполнения при запуске модели LDA от gensim, как я могу это исправить? - PullRequest
0 голосов
/ 21 марта 2020

У меня ошибка во время выполнения:

RuntimeError: 
        An attempt has been made to start a new process before the
        current process has finished its bootstrapping phase.

        This probably means that you are not using fork to start your
        child processes and you have forgotten to use the proper idiom
        in the main module:

            if __name__ == '__main__':
                freeze_support()
                ...

        The "freeze_support()" line can be omitted if the program
        is not going to be frozen to produce an executable.
  0%|          | 0/29 [00:48<?, ?it/s]

Когда я пытаюсь запустить этот код:

def topic_model_coherence_generator (corpus, texts, dictionary, start_topic_count=2, end_topic_count=10, step=1, cpus=1):
    models=[]
    coherence_scores = []
    for topic_nums in tqdm(range(start_topic_count, end_topic_count+1, step)):
        lda_model = gensim.models.LdaModel(corpus=bow_corpus, id2word=dictionary, chunksize=1740, alpha='auto', eta='auto',
                                   random_state=42, iterations=500, num_topics=topic_nums, passes=20, eval_every=None)

        cv_coherence_model_lda = gensim.models.CoherenceModel(model=lda_model, corpus=bow_corpus,
                                                      texts=norm_corpus_bigrams, dictionary=dictionary,
                                                      coherence='c_v')

        coherence_score= cv_coherence_model_lda.get_coherence()
        coherence_scores.append(coherence_score)
        models.append(lda_model)
    return models, coherence_scores

lda_models, coherence_scores = topic_model_coherence_generator(corpus=bow_corpus,
                                                               texts=norm_corpus_bigrams,
                                                               dictionary= dictionary,
                                                               start_topic_count=2,
                                                               end_topic_count=30,
                                                               step=1, cpus=16)

Мне нужно получить оптимальное количество тем моего корпуса для получения затем темы и интерпретация результатов топи c модели. Я биолог, поэтому я не знаю, как я могу это исправить. Спасибо за вашу помощь

1 Ответ

1 голос
/ 22 марта 2020

Это хорошая практика, и может потребоваться на Windows перед использованием другого кода, который использует Python multiprocessing, для помещения вашего кода в основной блок. Подробности см. В ответе:

{ ссылка }

(… и, возможно, другой ответ, на который он ссылается).

...