Question

Я пытаюсь применить шаги, описанные в следующем руководстве:

https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/

Хотя это пошаговое руководство, у меня есть проблемы, как принять его для своих нужд:

Во-первых, у меня есть файлы txt в папке, а не данные групп новостей, получаемые из Интернета.
Мои файлы txt были предварительно обработаны, поэтомунет необходимости применять какой-либо шаг предварительной обработки, такой как стоп-слова, лемматизация и т. д.
Моделирование темы следует применять, принимая во внимание каждый файл.Я имею в виду;Предположим, что термин «xyz» существует 3 раза в первом файле и 5 раз во втором файле.Вектор для «xyz» должен быть таким («xyz», 3) ..... («xyz», 5), а не просто («xyz», 8).

Не могли бы вы помочь мне с готовностью к следующим кодам:

# Create Dictionary
id2word = corpora.Dictionary(data_lemmatized)

# Create Corpus
texts = data_lemmatized

# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]

# View
print(corpus[:1])

С уважением,

Gensim Mallet LDA с предварительно обработанными текстовыми файлами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Gensim Mallet LDA с предварительно обработанными текстовыми файлами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы