Как должен выглядеть входной корпус Gensim LDA? - PullRequest
0 голосов
/ 28 декабря 2018

Я пытаюсь ввести два разных типа корпуса ввода в модель LDA Gensim. Мой документ:

documents = ["Apple is releasing a new product", 
         "Amazon sells many things",
         "Microsoft announces Nokia acquisition"]   
texts = [[word for word in document.lower().split() if word not in stop_words] for document in documents]   
texts1 = []
for i in texts:
    for t in i:
      texts1.append([t]) 

И использовать Gensim, чтобы превратить его в корпус

corpus = [[(0, 1), (1, 1), (2, 1), (3, 1)], [(4, 1), (5, 1), (6, 1), (7, 1)], [(8, 1), (9, 1), (10, 1), (11, 1)]]
corpus1 = [[(0, 1)], [(1, 1)], [(2, 1)], [(3, 1)], [(4, 1)], [(5, 1)], [(6, 1)], [(7, 1)], [(8, 1)], [(9, 1)], [(10, 1)], [(11, 1)]]

Есть лиОгромная разница, если я использую эти два вида способа, чтобы поместить его в модель LDA?

Когда я пробую эти два способа, разница заключается в распределении вероятности слова в темах, corpus1 намного меньшечем corpus с точки зрения вероятностей.

Я пытаюсь сделать документ LDA большего размера, и corpus1 всегда показывает мне крайне низкую вероятность, например 0.0001

Есть ли лучший способ добавить корпус в модель LDA?

...