Документы в обучающих данных относятся к определенной топике c в LDA - PullRequest
0 голосов
/ 28 января 2020

Я работаю над проблемой, когда у меня есть текстовые данные с около 10000 документов. Я создал приложение, в котором, если пользователь вводит какой-то случайный комментарий, оно должно отображать все похожие комментарии / документы, присутствующие в данных обучения. Точно так же, как в переполнении стека, если вы задаете вопрос, он показывает все связанные вопросы, заданные ранее. Поэтому, если у кого-то есть какие-либо предложения, как это сделать, пожалуйста, ответьте.

Во-вторых, я пробую алгоритм LDA (скрытое выделение дирихле), где я могу получить топи c, к которому принадлежит мой новый документ, но как Получу ли я аналогичные документы из данных обучения? Также, как мне выбрать num_topics в LDA.

Если у кого-нибудь есть какие-либо предложения относительно алгоритмов, отличных от LDA, пожалуйста, сообщите мне.

1 Ответ

0 голосов
/ 28 января 2020

Вы можете попробовать следующее:

  1. Doc2ve c - это расширение чрезвычайно популярного алгоритма word2ve c, который отображает слова в N- трехмерное векторное пространство, так что слова, встречающиеся в вашем документе в непосредственной близости, будут встречаться в непосредственной близости в векторном пространстве. Вы можете использовать предварительно обученные вложения слов. Узнайте больше о word2ve c здесь . Doc2ve c является расширением word2ve c. Это позволит вам сопоставить каждый документ с вектором измерения N. После этого вы можете использовать любую меру расстояния, чтобы найти наиболее похожие документы для входного документа.
  2. Расстояние для Word Mover - Это непосредственно подходит для ваша цель, а также использует вложения слов. Я использовал его в одном из своих личных проектов и добился действительно хороших результатов. Узнайте больше об этом здесь

Кроме того, убедитесь, что вы применили соответствующую очистку текста перед применением алгоритмов. Шаги, такие как нормализация регистра, удаление стоп-слов, удаление пунктуации и т. Д. c. Это действительно зависит от вашего набора данных. Узнайте больше здесь

Я надеюсь, что это было полезно ...

...