Question

Я обучил модель hensp gensim на большом корпусе (50 ГБ текста, 160 миллионов строк). Результатом стал набор из 20 тем, которые были почти одинаковыми с небольшим отличием в словах.

Мой конвейер предварительной обработки входного текста включает тривиальные методы, такие как нормализация текста , стоп-слово удаление , вычисление биграмм , tf-idf , а также игнорирование всех предложений, содержащих менее 20 слов .

Существует ли какой-либо прямой подход к моделированию топи c с использованием hdp или любого другого аналогичного метода, который дает более точные результаты?

Все темы в модели gensim hdp сходятся в одной теме

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Все темы в модели gensim hdp сходятся в одной теме

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы