У меня есть список отзывов, каждый элемент списка - это обзор набора данных IMDB в kaggle. в общей сложности 25000 отзывов. У меня есть ярлык каждого отзыва +1 для положительного и -1 для отрицательного.
Я хочу обучить скрытую марковскую модель с помощью этих обзоров и ярлыков.
1- Какую последовательность я должен дать HMM? это что-то вроде Мешка слов или это что-то вроде вероятностей, которые мне нужно вычислить? какой метод извлечения признаков подходит? Мне сказали использовать пакет слов в списке обзора, но когда я немного искал, я обнаружил, что HMM заботится о порядке, но пакет слов не поддерживает порядок слов в последовательностях. как мне подготовить этот список обзоров, чтобы можно было вставить его в модель HMM?
2 - есть ли рамки для этого? Я знаю Hmmlearn, и я думаю, что я должен использовать MultinomialHMM, поправьте меня, если я ошибаюсь. но он не контролируется, его модели не принимают метки в качестве входных данных, когда я хочу обучить его, и я получаю некоторые забавные ошибки, которые не знаю, как решить из-за первого вопроса, который я задал о правильном типе ввода, который я должен дать ему. seqlearn - это то, что я недавно нашел, это хорошо или есть лучший вариант для использования?
Я ценю любые рекомендации, поскольку у меня почти нулевые знания о НЛП.