Gensim Mallet: у вывода нет терминов по нескольким темам - PullRequest
0 голосов
/ 17 февраля 2020

Ниже приведен вывод, который я получаю с помощью оболочки Gensim Mallet. Из этой ссылки SO link я понял, что LL / токен означает «логарифмичность модели , деленную на общее количество токенов ». 1) Однако, для нескольких тем вроде (1,8,11 и c.) Я вообще не вижу никаких терминов. 2) Я попытался запустить код для ряда тем из (10,20,2) (шаг 2, начиная с 10-20). Но результат показывает 17 как последний сгенерированный topi c. Я что-то здесь упускаю ..

0       2.77778 watch 
1       2.77778 
2       2.77778 receive tape hope purchase 
3       2.77778 dvds wildlife pass yr interested 
4       2.77778 dvd version walk bored 
5       2.77778 volume courtyard trilogy 
6       2.77778 crazy picture minute 
7       2.77778 neighbor 
8       2.77778 
9       2.77778 buy mice trouble stay versus feeder 
10      2.77778 inside stir tv mine life bird wonderful year fascinated 
11      2.77778 
12      2.77778 
13      2.77778 recommend test real prefer greenery 
14      2.77778 age 
15      2.77778 funny triliogy play friend full minute 
16      2.77778 
17      2.77778 time tree 

<950> LL/token: -22.17456
<960> LL/token: -22.22132
<970> LL/token: -22.24897
<980> LL/token: -22.11585
<990> LL/token: -22.38062

1 Ответ

0 голосов
/ 17 февраля 2020

Это похоже на результат, который вы получаете, когда набор входных данных слишком мал или разделен на слишком мало сегментов. «Документы» должны содержать от 100 до 500 слов, а их должно быть не менее нескольких сотен.

...