Question

Я делаю классификацию текста на диалекте и использую countVectorizer с наивными байесами.Количество функций слишком много, я собрал 20 тысяч твитов с 4 диалектами.каждый диалект имеет 5000 твитов.И общее количество функций 43K.Я думал, может быть, поэтому у меня может быть переоснащение.Потому что при тестировании на новых данных точность сильно упала.Итак, как я могу исправить количество функций, чтобы избежать перегрузки данных?

Benjamin Breton · Answer 1 · 19 мая 2019

Например, вы можете установить для параметра max_features значение 5000, это может помочь при перегрузке.Вы также можете возиться с max_df (например, установить его на 0,95)

Stanisław Wilczyński · Answer 2 · 19 мая 2019

Это падение данных испытаний вызвано проклятием размерности . Вы можете использовать некоторый метод уменьшения размерности, чтобы уменьшить этот эффект. Возможный выбор - скрытый семантический анализ, реализованный в sklearn .

Как уменьшить количество функций в текстовой классификации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как уменьшить количество функций в текстовой классификации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы