Вложения в слова плохо работают для классификации текста - PullRequest
0 голосов
/ 05 ноября 2018

Я работаю над вариантом использования классификации текста. Текст в основном содержит юридические документы, например, годовые отчеты компаний, W9 и т. Д. Таким образом, всего существует 10 различных категорий и 500 документов. Поэтому 50 документов в каждой категории. Таким образом, набор данных состоит из 500 строк и 2 столбцов, 1-й столбец состоит из текста, а 2-й столбец является целью.

Я построил базовую модель с использованием TF-IDF для своих текстовых функций. Я использовал Multinomial Naive Bayes, SVC, Linear SGD, Многослойный Персептрон, Случайный Лес. Эти модели дают мне оценку F1 примерно 70-75%.

Я хотел посмотреть, поможет ли создание встраивания слов улучшить точность. Я обучил векторы слов, используя gensim Word2vec, и подгонял векторы слов через те же модели ML, что и выше, но я получаю оценку около 30-35%. У меня очень маленький набор данных и много категорий, это проблема? Это единственная причина, или я что-то упускаю?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...