Я обучил модель hensp gensim на большом корпусе (50 ГБ текста, 160 миллионов строк). Результатом стал набор из 20 тем, которые были почти одинаковыми с небольшим отличием в словах.
Мой конвейер предварительной обработки входного текста включает тривиальные методы, такие как нормализация текста , стоп-слово удаление , вычисление биграмм , tf-idf , а также игнорирование всех предложений, содержащих менее 20 слов .
Существует ли какой-либо прямой подход к моделированию топи c с использованием hdp или любого другого аналогичного метода, который дает более точные результаты?