У меня есть набор данных из 130 фильмов и их субтитров. Я должен классифицировать их на основе их рейтингов (R, NR, PG, PG-13, G). (Используемый язык Python)
Я сделал следующее:
1) токенизировать данные, используя пробел древовидного банка и токенайзеры wordpunc
2) лемматизировал данные (лемматизация дала большую точность при включении pos-тегов)
3) убраны стоп-слова и знаки препинания.
4) для фильмов, принадлежащих каждому классу, выполнил векторизацию tfidf и выбрал 1000 лучших слов, используя max_features, и построил фрейм данных размером 125 * 5000.
5) Я применил несколько алгоритмов классификации и кластеризации, и они дали мне следующую точность:
SVC: точность теста: 0,325 и точность поезда: 0,63
Наивный Байес: тест по: 0,25 и точность поезда: 0,33
knn: точность теста: 0.41
Kmeans: точность теста: 0,162
Логистическая регрессия: точность теста: 0,53 и точность обучения: 0,96
Что я должен сделать, чтобы улучшить свою точность?
Я делаю какие-то ошибки или упускаю что-то важное?