Сохраненная модель Gensim LdaMallet не работает в другой консоли - PullRequest
0 голосов
/ 29 мая 2019

Я тренирую модель ldamallet на python и сохраняю ее.Я также сохраняю учебный словарь, который я могу использовать для создания корпуса для невидимых документов позже.Если я выполняю каждое действие (т. Е. Тренирую модель, сохраняю обученную модель, загружаю сохраненную модель, определяю невидимый корпус) в одной консоли, все работает нормально.Тем не менее, я хочу использовать обученную модель на другой консоли / компьютере.

Я передал префикс во время тренировки, чтобы посмотреть временные файлы, созданные моделью.Следующие файлы создаются при обучении модели:

'corpus.mallet'

'corpus.txt'

'doctopics'txt'

inferencer.mallet '

' state.mallet.gz '

' topickeys.txt '

Теперь, когда я загружаю сохраненную модель в другую консольи вывести невидимый корпус, созданный с использованием сохраненного словаря, я не вижу других создаваемых временных файлов и выдает следующую ошибку:

FileNotFounderror: No such file or directory : 'my_directory\\doctopics.txt.infer'

По какой-то странной причине, если я загружаю сохраненную модель в ту же консоль (консольобучен) и выводит невидимый корпус, как указано выше, обновляется файл corpus.txt и создаются два новых временных файла:

'corpus.mallet.infer'

'doctopics.txt.infer '

Есть идеи, почему у меня может быть эта проблема?

Я пытался использовать LdaModel вместо LdaMallet, и LdaModel прекрасно работает независимо от того, выполняю ли я всю задачу вта же консоль или другая консоль.

Ниже приведен фрагмент кода, которым я являюсьиспользуя.

    def find_optimum_model(self):
        lemmatized_words = self.lemmatization()
        id2word = corpora.Dictionary(lemmatized_words)
        all_corpus = [id2word.doc2bow(text) for text in lemmatized_words]

        #For two lines below update with your path to new_mallet
        os.environ['MALLET_HOME'] = r'C:\\users\\axk0er8\\Sentiment_Analysis_Working\\new_mallet\\mallet-2.0.8'
        mallet_path = r'C:\\users\\axk0er8\\Sentiment_Analysis_Working\\new_mallet\\mallet-2.0.8\\bin\\mallet.bat'
        prefix_path = r'C:\\users\\axk0er8\\Sentiment_Analysis_Working\\new_mallet\\mallet_temp\\'

    def compute_coherence_values(dictionary, all_corpus, texts, limit, start=2, step=4):
        coherence_values = []
        model_list = []
        num_topics_list = []


        for num_topics in range(start, limit, step):
            model = gensim.models.wrappers.LdaMallet(mallet_path, corpus=all_corpus, num_topics=num_topics, id2word=dictionary,
                                                random_seed=42)
            #model = gensim.models.ldamodel.LdaModel(corpus=all_corpus,num_topics=num_topics,id2word=dictionary,eval_every=1,
            #                                        alpha='auto',random_state=42)
            model_list.append(model)
            coherencemodel = CoherenceModel(model=model, texts=texts, dictionary=dictionary, coherence='c_v')
            coherence_values.append(coherencemodel.get_coherence())
            num_topics_list.append(num_topics)

        return model_list, coherence_values, num_topics_list

    model_list, coherence_values, num_topics_list = compute_coherence_values(dictionary=id2word,all_corpus=all_corpus,
                                                                                texts=lemmatized_words,start=5,limit=40, step=6)
    model_values_df = pd.DataFrame({'model_list':model_list,'coherence_values':coherence_values,'num_topics':num_topics_list})

    optimal_num_topics = model_values_df.loc[model_values_df['coherence_values'].idxmax()]['num_topics']

    optimal_model = gensim.models.wrappers.LdaMallet(mallet_path, corpus=all_corpus, num_topics=optimal_num_topics, id2word=id2word,
                                                        prefix=prefix_path, random_seed=42)

    #joblib.dump(id2word,'id2word_dictionary_mallet.pkl')
    #joblib.dump(optimal_model,'optimal_ldamallet_model.pkl')
    id2word.save('id2word_dictionary.gensim')
    optimal_model.save('optimal_lda_model.gensim')

    def generate_dominant_topic(self):
        lemmatized_words = self.lemmatization()
        id2word = corpora.Dictionary.load('id2word_dictionary.gensim')
        #id2word = joblib.load('id2word_dictionary_mallet.pkl')
        new_corpus = [id2word.doc2bow(text) for text in lemmatized_words]
        optimal_model = gensim.models.wrappers.LdaMallet.load('optimal_lda_model.gensim')
        #optimal_model = joblib.load('optimal_ldamallet_model.pkl')


        def format_topics_sentences(ldamodel, new_corpus):
            sent_topics_df = pd.DataFrame()
            for i, row in enumerate(ldamodel[new_corpus]):
                row = sorted(row, key=lambda x: (x[1]), reverse=True)
                for j, (topic_num, prop_topic) in enumerate(row):
                    if j == 0:
                        wp = ldamodel.show_topic(topic_num)
                        topic_keywords = ", ".join([word for word, prop in wp])
                        sent_topics_df = sent_topics_df.append(pd.Series([int(topic_num), round(prop_topic,4), topic_keywords]),
                                                               ignore_index=True)
                    else:
                        break
            sent_topics_df.columns = ['Dominant_Topic', 'Perc_Contribution', 'Topic_Keywords']
            return (sent_topics_df)

Я ожидаю использовать функцию find_optimum_model с данными обучения и сохранить оптимальную модель и словарь.После сохранения используйте функцию generate_dominant_topic, чтобы загрузить сохраненную модель и словарь, создать корпус для невидимого текста и запустить модель, чтобы получить желаемый результат моделирования темы.

...