Я думаю, что проблема с реализацией Blei заключается в том, что вы делаете вариационный вывод, выполняя:
$ lda inf [args ...]
Когда вы хотите оценить тему, наберите:
$ lda est [args ...]
Как только это запустится, в текущем каталоге или в каталоге, указанном необязательным последним аргументом, будет находиться файл "final.beta". Затем вы запускаете скрипт python "themes.py", включенный в tar. Читайте здесь: http://www.cs.princeton.edu/~blei/lda-c/readme.txt описывает все это, особенно разделы B и D.
(Если это все еще не имеет смысла, дайте мне знать)
Что касается таких улучшений, как CTM и т. Д. Я ничего не знаю о HLDA, но в прошлом я использовал и LDA, и CTM, и я могу сказать, что ни один из них не лучше, чем другой, - это случай быть лучше для разных данных. CTM предполагает, что документы коррелированы, и использует это предположение для улучшения результатов, пока оно верно.
Надеюсь, это поможет!