Помечено LDA + Управляемое моделирование тем LDA - PullRequest
0 голосов
/ 21 февраля 2019

Я довольно плохо знаком с машинным обучением, НЛП и LDA, поэтому я не уверен, что я даже правильно подхожу к своей проблеме;но я пытаюсь выполнить неконтролируемое моделирование тем с известными темами и множественным выбором тем.На основе Тематического моделирования, но с известными темами?

Я могу пометить каждый из моих документов каждой отдельной темой, и мой неконтролируемый набор эффективно становится контролируемым (LLDA - контролируемая техника),

Чтение этой статьи Я столкнулся с некоторыми другими потенциальными проблемами. Во-первых, мои данные организованы по категориям и подкатегориям.Согласно документу, LLDA более эффективен со значительным семантическим различием между текстами, чего у меня не будет особенно с моими относительно близкими подкатегориями.Кроме того, в документе отмечается, что LLDA не был разработан для классификации по нескольким меткам.

Я надеюсь исправить эту слабость, включив управляемую часть GuidedLDA (я не читал статью об этом, но прочитал https://medium.freecodecamp.org/how-we-changed-unsupervised-lda-to-semi-supervised-guidedlda-e36a95f3a164).

Так есть ли какой-либо алгоритм (я бы предположил модификацию LLDA, но опять же я не очень хорошо читал в этой области), который позволяет использовать некоторую форму интуиции, чтобы помочь неконтролируемой тематической модели склассы известных тем, которые выбирают несколько тем?

Что касается того, почему я не просто использую управляемый LDA - я планирую протестировать его и посмотреть, насколько хорошо он работает (наряду с LLDA).Но он также не предназначен для нескольких этикеток.

Небольшое замечание, если это имеет значение - я на самом деле использую документы и слова для своих данных, я читал об использовании LDA с другими типами данных.

Дальнейшее примечание - у меня достаточно суммыопыта работы с Python, хотя я слышал, что есть хороший инструмент для моделирования тем, который называется Mallet, который я мог бы изучить, но еще не изучил (может быть, у него есть что-то для этого?)

1 Ответ

0 голосов
/ 22 февраля 2019

Как вы сказали, что опробуете Guided LDA, вы можете получить несколько меток следующим образом:

Существует дистрибутив, называемый тета-дистрибутивом, или когда мы хотим получить тему документа,выводом управляемого LDA будет массив, который имеет вероятность каждой темы для каждого документа.Мы обычно выбираем тему с наибольшей вероятностью. Может быть, вы можете установить пороговое значение в соответствии с вашей проблемой и выбрать темы с вероятностью, превышающей это.

Это поможет вам в решении вопроса о неконтролируемом моделировании тем с помощьюпроблема с несколькими метками.

...