Я работаю над проблемой, когда у меня есть текстовые данные с около 10000 документов. Я создал приложение, в котором, если пользователь вводит какой-то случайный комментарий, оно должно отображать все похожие комментарии / документы, присутствующие в данных обучения. Точно так же, как в переполнении стека, если вы задаете вопрос, он показывает все связанные вопросы, заданные ранее. Поэтому, если у кого-то есть какие-либо предложения, как это сделать, пожалуйста, ответьте.
Во-вторых, я пробую алгоритм LDA (скрытое выделение дирихле), где я могу получить топи c, к которому принадлежит мой новый документ, но как Получу ли я аналогичные документы из данных обучения? Также, как мне выбрать num_topics в LDA.
Если у кого-нибудь есть какие-либо предложения относительно алгоритмов, отличных от LDA, пожалуйста, сообщите мне.