Классифицировать фильмы на основе их рейтингов, используя их точность субтитров очень плохо - PullRequest
0 голосов
/ 19 января 2019

У меня есть набор данных из 130 фильмов и их субтитров. Я должен классифицировать их на основе их рейтингов (R, NR, PG, PG-13, G). (Используемый язык Python) Я сделал следующее: 1) токенизировать данные, используя пробел древовидного банка и токенайзеры wordpunc 2) лемматизировал данные (лемматизация дала большую точность при включении pos-тегов) 3) убраны стоп-слова и знаки препинания. 4) для фильмов, принадлежащих каждому классу, выполнил векторизацию tfidf и выбрал 1000 лучших слов, используя max_features, и построил фрейм данных размером 125 * 5000. 5) Я применил несколько алгоритмов классификации и кластеризации, и они дали мне следующую точность: SVC: точность теста: 0,325 и точность поезда: 0,63 Наивный Байес: тест по: 0,25 и точность поезда: 0,33 knn: точность теста: 0.41 Kmeans: точность теста: 0,162 Логистическая регрессия: точность теста: 0,53 и точность обучения: 0,96

Что я должен сделать, чтобы улучшить свою точность? Я делаю какие-то ошибки или упускаю что-то важное?

1 Ответ

0 голосов
/ 19 января 2019

Вам повезло иметь данные, которые вы можете понять интуитивно.Попробуйте выбрать несколько примеров неправильной классификации и попытайтесь определить причину сбоя вашей модели.

  • Вы случайно отфильтровываете матерные слова?Возможно, n-граммовая модель была бы более предсказуемой
  • У вас есть время и текст?Пробелы в диалоге могут указывать на эмоциональные или боевые сцены
...