Я довольно плохо знаком с машинным обучением, НЛП и LDA, поэтому я не уверен, что я даже правильно подхожу к своей проблеме;но я пытаюсь выполнить неконтролируемое моделирование тем с известными темами и множественным выбором тем.На основе Тематического моделирования, но с известными темами?
Я могу пометить каждый из моих документов каждой отдельной темой, и мой неконтролируемый набор эффективно становится контролируемым (LLDA - контролируемая техника),
Чтение этой статьи Я столкнулся с некоторыми другими потенциальными проблемами. Во-первых, мои данные организованы по категориям и подкатегориям.Согласно документу, LLDA более эффективен со значительным семантическим различием между текстами, чего у меня не будет особенно с моими относительно близкими подкатегориями.Кроме того, в документе отмечается, что LLDA не был разработан для классификации по нескольким меткам.
Я надеюсь исправить эту слабость, включив управляемую часть GuidedLDA (я не читал статью об этом, но прочитал https://medium.freecodecamp.org/how-we-changed-unsupervised-lda-to-semi-supervised-guidedlda-e36a95f3a164).
Так есть ли какой-либо алгоритм (я бы предположил модификацию LLDA, но опять же я не очень хорошо читал в этой области), который позволяет использовать некоторую форму интуиции, чтобы помочь неконтролируемой тематической модели склассы известных тем, которые выбирают несколько тем?
Что касается того, почему я не просто использую управляемый LDA - я планирую протестировать его и посмотреть, насколько хорошо он работает (наряду с LLDA).Но он также не предназначен для нескольких этикеток.
Небольшое замечание, если это имеет значение - я на самом деле использую документы и слова для своих данных, я читал об использовании LDA с другими типами данных.
Дальнейшее примечание - у меня достаточно суммыопыта работы с Python, хотя я слышал, что есть хороший инструмент для моделирования тем, который называется Mallet, который я мог бы изучить, но еще не изучил (может быть, у него есть что-то для этого?)