Внедрение скрытого распределения Дирихле с Gensim - PullRequest
0 голосов
/ 09 апреля 2020

Я делаю проект о моделировании LDA topi c, я использовал gensim (python) для этого. Я прочитал некоторые ссылки, и там сказано, что для получения наилучшей модели topi c thera необходимо определить два параметра: количество проходов и число topi c. Это правда? для числа проходов мы увидим, в какой момент проходы стабильны, для числа топи c мы увидим, какие топи c имеют наименьшее значение.

num_topics = 10
chunksize = 2000
passes = 20
iterations = 400
eval_every = None 

И это необходимо использовать все параметры в библиотеке gensim?

1 Ответ

0 голосов
/ 10 апреля 2020

Хорошие модели LDA в основном зависят от количества тем. Чем больше проходов, тем точнее будет модель topi c (а также тем больше времени потребуется для тренировки).

Конечно, нет необходимости использовать все параметры. Большую часть времени вы будете просто передавать необходимые аргументы. Чтобы найти оптимальное количество тем, вы можете получить значения когерентности c_v и найти самую высокую когерентность по заданной сетке. Как правило, согласованность является лучшим показателем c, чем недоумение, поскольку она больше соответствует человеческим аннотаторам.

...