Я использую три TXT-файла для выполнения проекта LDA. Я пытаюсь разделить эти три TXT-файла двумя способами. Разница между процессами такова:
docs = [[doc1.split(' ')], [doc2.split(' ')], [doc3.split(' ')]]
docs1 = [[''.join(i)] for i in re.split(r'\n{1,}', doc11)] + [[''.join(e)] for e in re.split(r'\n{1,}', doc22)] + [[''.join(t)] for t in re.split(r'\n{1,}', doc33)]
dictionary = Dictionary(docs)
dictionary1 = Dictionary(docs1)
corpus = [dictionary.doc2bow(doc) for doc in docs]
corpus1 = [dictionary.doc2bow(doc) for doc in docs1]
И номер документа
len(corpus)
len(corpus1)
3
1329
Но модель lda приводит к мусору в corpus
, но относительно хороший результат в corpus1
. Я использую эту модель для обучения документа
model = gensim.models.ldamodel.LdaModel(corpus=corpus,
id2word=id2word,
num_topics=10,
random_state=100,
update_every=1,
chunksize=100,
passes=10,
alpha='auto',
per_word_topics=True)
Разницав двух моделях номер документа, все остальное одинаково
Почему LDA создает такой разный результат в этих двух моделях?