Используя скрытое распределение Дирихле (с gensim или sklearn в python), как я могу использовать распределение тем для каждого документа с соответствующей классификацией (скажем, у нас есть обзоры фильмов, помеченные как положительные или отрицательные) для использования в алгоритме обучения под наблюдениемдля классификации невидимых документов
Существуют ли какие-либо ресурсы или работа, которую другие люди сделали, которую вы рекомендуете посмотреть?
Вот решение проблемы:
Предположим, у меня есть такой корпус, что каждый документ является рецензией на фильм. Каждый документ помечен как положительный или отрицательный (для положительного или отрицательного отзыва).
Используя скрытое выделение Дирихле (тематическое моделирование), я хотел бы создать тематическую модель для этого корпуса, напримерчто каждый документ связан с некоторым распределением тем.
Затем, используя распределение и классификацию тем (положительные или отрицательные), я бы хотел обучить управляемый алгоритм машинного обучения (например, нейронные сети). или деревья решений), чтобы мы могли классифицировать будущие обзоры фильмов, которые модель не видела вообще, как положительные или отрицательные.