Question

В настоящее время я работаю с набором данных обзора приложений, чтобы предсказать спам.Очевидно, что обзоры, помеченные как спам, являются лишь небольшой частью набора данных из 20 000 записей.Стоит ли копировать или переделывать данные для лучшей производительности модели?Если да, то какие методы могут быть применены к строкам, такие как SMOTE, ROS и т. Д.

Пример данных

review_text sentiment   error_related
0   [simple, effective, way, new, word, kid]    1   0.0
1   [fh, fcfatgv]   1   1.0
2   [son, loved, easy, even, though, son, first, g...   1   0.0

Распределение данных на данный момент

0.0 - 0.918605
1.0 - 0.081395

Стоит ли копировать мои строковые данные для лучшей производительности модели?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Стоит ли копировать мои строковые данные для лучшей производительности модели?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы