Я пытаюсь применить шаги, описанные в следующем руководстве:
https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/
Хотя это пошаговое руководство, у меня есть проблемы, как принять его для своих нужд:
Во-первых, у меня есть файлы txt в папке, а не данные групп новостей, получаемые из Интернета.
Мои файлы txt были предварительно обработаны, поэтомунет необходимости применять какой-либо шаг предварительной обработки, такой как стоп-слова, лемматизация и т. д.
Моделирование темы следует применять, принимая во внимание каждый файл.Я имею в виду;Предположим, что термин «xyz» существует 3 раза в первом файле и 5 раз во втором файле.Вектор для «xyz» должен быть таким («xyz», 3) ..... («xyz», 5), а не просто («xyz», 8).
Не могли бы вы помочь мне с готовностью к следующим кодам:
# Create Dictionary
id2word = corpora.Dictionary(data_lemmatized)
# Create Corpus
texts = data_lemmatized
# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]
# View
print(corpus[:1])
С уважением,