Как уменьшить количество функций в текстовой классификации? - PullRequest
0 голосов
/ 19 мая 2019

Я делаю классификацию текста на диалекте и использую countVectorizer с наивными байесами.Количество функций слишком много, я собрал 20 тысяч твитов с 4 диалектами.каждый диалект имеет 5000 твитов.И общее количество функций 43K.Я думал, может быть, поэтому у меня может быть переоснащение.Потому что при тестировании на новых данных точность сильно упала.Итак, как я могу исправить количество функций, чтобы избежать перегрузки данных?

Ответы [ 2 ]

2 голосов
/ 19 мая 2019

Например, вы можете установить для параметра max_features значение 5000, это может помочь при перегрузке.Вы также можете возиться с max_df (например, установить его на 0,95)

1 голос
/ 19 мая 2019

Это падение данных испытаний вызвано проклятием размерности . Вы можете использовать некоторый метод уменьшения размерности, чтобы уменьшить этот эффект. Возможный выбор - скрытый семантический анализ, реализованный в sklearn .

...