Я использую LDA для моделирования тем, но, к сожалению, мои данные сильно искажены.У меня есть документы из 10 различных категорий, и я хотел бы, чтобы каждая категория внесла одинаковый вклад в темы LDA.
Однако в каждой категории имеется различное количество документов (например, в одной категории содержится более 50% всех документов, а в нескольких категориях содержится только 1-2% документов).
Каков наилучший подход для назначения весов этим категориям, чтобы они в равной степени способствовали моим темам?Если я запускаю LDA без этого, мои темы будут в значительной степени основаны на категории, которая содержит более 50% документов в корпусе.Я изучаю повышающую выборку, но предпочел бы решение, которое напрямую назначает вес в LDA.