pyLDavis много маленьких / пустых кружков - PullRequest
0 голосов
/ 03 августа 2020

Я новичок в интеллектуальном анализе текста и программировании и в настоящее время изучаю скрытое распределение Дирихле на довольно небольшом наборе данных. У меня около 200 исследовательских работ (полнотекстовых), помеченных 107 метками (проблема с несколькими метками). Я попытался найти количество тем, которые подошли бы к моей модели LDA, вычислив меру согласованности (см. https://datascienceplus.com/evaluation-of-topic-modeling-topic-coherence/). Моя оценка совместимости достигла максимума по 152 темам. После визуализации моей модели с помощью pyLDAvis я получил следующее изображение.

pyLDAvis моей модели LDA со 152 темами

К сожалению, я не знаю, как это интерпретировать .. Как можно понять, это около 10 тем, которые, согласно pyLDAvis, не встречаются в моем наборе данных. Круг вряд ли существует, и когда я навешиваю на него, данные не отображаются. Кто-нибудь может дать мне подсказку, что это значит или как я могу это исправить? Считаете ли вы, что это связано с тем, что у меня 1. очень маленький набор данных (200 статей), 2. много ярлыков, 3. я тренируюсь на полнотекстовых данных ... спасибо за любое предложение / подсказку!

...