Одной из вещей, которую вы можете попробовать, является использование Doc2Ve c. Это позволит вам сопоставить каждый документ с вектором измерения N. Затем вы можете использовать любой контролируемый алгоритм обучения для обучения этим N особенностям.
Есть другие альтернативы doc2ve c, упомянутые здесь . Попробуйте Среднее для векторов Word2Ve c с подходом TF-IDF .
Кроме того, убедитесь, что вы применили соответствующую очистку текста перед применением doc2ve c или word2ve c. Шаги, такие как нормализация регистра, удаление стоп-слов, удаление пунктуации и т. Д. c. Это действительно зависит от вашего набора данных. Узнайте больше здесь
Я бы также предложил разработать некоторые функции из ваших данных, если вы хотите прогнозировать, нравится или не нравится. Это зависит от ваших данных и проблемы, но некоторые примеры:
- Соотношение прописных слов
- Слова сленга присутствуют или нет
- Смайлики присутствуют или нет
- Язык текста
- Чувство текста - это совершенно новый топи c в целом, хотя
Надеюсь, это было полезно ...