Прямо сейчас я использую инструмент моделирования тем LDA из пакета MALLET, чтобы определить темы в моих документах. Сначала все хорошо, я получил 20 тем. Тем не менее, когда я пытаюсь вывести новый документ, используя модель, результат выглядит несколько странно.
Например, я намеренно управляю своей моделью над документом, который я создал вручную, который содержит только ключевые слова из одной из тем «FLU», но распределение тем, которые я получил, составляло <0.1 для каждой темы. Затем я пробую то же самое на одном из уже отобранных документов, который имеет высокий балл 0,7 по одной из тем. Снова произошло то же самое. </p>
Может кто-нибудь дать подсказку по причине?
Пробовал спрашивать в списке рассылки MALLET, но, видимо, никто не ответил.