Gensim Mallet LDA с предварительно обработанными текстовыми файлами - PullRequest
0 голосов
/ 19 марта 2019

Я пытаюсь применить шаги, описанные в следующем руководстве:

https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/

Хотя это пошаговое руководство, у меня есть проблемы, как принять его для своих нужд:

  • Во-первых, у меня есть файлы txt в папке, а не данные групп новостей, получаемые из Интернета.

  • Мои файлы txt были предварительно обработаны, поэтомунет необходимости применять какой-либо шаг предварительной обработки, такой как стоп-слова, лемматизация и т. д.

  • Моделирование темы следует применять, принимая во внимание каждый файл.Я имею в виду;Предположим, что термин «xyz» существует 3 раза в первом файле и 5 раз во втором файле.Вектор для «xyz» должен быть таким («xyz», 3) ..... («xyz», 5), а не просто («xyz», 8).

Не могли бы вы помочь мне с готовностью к следующим кодам:

# Create Dictionary
id2word = corpora.Dictionary(data_lemmatized)

# Create Corpus
texts = data_lemmatized

# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]

# View
print(corpus[:1])

С уважением,

...