Моделирование тем - используйте распределение тем для каждого документа с соответствующей классификацией для использования в контролируемом алгоритме обучения - PullRequest
0 голосов
/ 11 ноября 2019

Используя скрытое распределение Дирихле (с gensim или sklearn в python), как я могу использовать распределение тем для каждого документа с соответствующей классификацией (скажем, у нас есть обзоры фильмов, помеченные как положительные или отрицательные) для использования в алгоритме обучения под наблюдениемдля классификации невидимых документов

Существуют ли какие-либо ресурсы или работа, которую другие люди сделали, которую вы рекомендуете посмотреть?

Вот решение проблемы:

  1. Предположим, у меня есть такой корпус, что каждый документ является рецензией на фильм. Каждый документ помечен как положительный или отрицательный (для положительного или отрицательного отзыва).

  2. Используя скрытое выделение Дирихле (тематическое моделирование), я хотел бы создать тематическую модель для этого корпуса, напримерчто каждый документ связан с некоторым распределением тем.

  3. Затем, используя распределение и классификацию тем (положительные или отрицательные), я бы хотел обучить управляемый алгоритм машинного обучения (например, нейронные сети). или деревья решений), чтобы мы могли классифицировать будущие обзоры фильмов, которые модель не видела вообще, как положительные или отрицательные.

...