У меня есть несколько уже классифицированных документов по некоторым темам, каждая из которых c - это человек, который просмотрел какой-то документ. Цель состоит в том, чтобы назначить некоторые будущие документы рецензенту на основе содержания сходства уже рецензированных документов каждого рецензента и нового документа.
У меня 30 000 тем (рецензентов), для каждой от 2 до 5 документов. Каждый документ относится к 3 классам.
Я реализовал Tf-IDF и NMF, но не могу получить хорошие результаты.
Я читал о маркированном LDA, но перед его реализацией я хотел бы знать, если Я мог ожидать хороших результатов.