Все темы в модели gensim hdp сходятся в одной теме - PullRequest
0 голосов
/ 23 января 2020

Я обучил модель hensp gensim на большом корпусе (50 ГБ текста, 160 миллионов строк). Результатом стал набор из 20 тем, которые были почти одинаковыми с небольшим отличием в словах.

Мой конвейер предварительной обработки входного текста включает тривиальные методы, такие как нормализация текста , стоп-слово удаление , вычисление биграмм , tf-idf , а также игнорирование всех предложений, содержащих менее 20 слов .

Существует ли какой-либо прямой подход к моделированию топи c с использованием hdp или любого другого аналогичного метода, который дает более точные результаты?

...