Стоит ли копировать мои строковые данные для лучшей производительности модели? - PullRequest
0 голосов
/ 22 апреля 2019

В настоящее время я работаю с набором данных обзора приложений, чтобы предсказать спам.Очевидно, что обзоры, помеченные как спам, являются лишь небольшой частью набора данных из 20 000 записей.Стоит ли копировать или переделывать данные для лучшей производительности модели?Если да, то какие методы могут быть применены к строкам, такие как SMOTE, ROS и т. Д.

Пример данных

review_text sentiment   error_related
0   [simple, effective, way, new, word, kid]    1   0.0
1   [fh, fcfatgv]   1   1.0
2   [son, loved, easy, even, though, son, first, g...   1   0.0

Распределение данных на данный момент

0.0 - 0.918605
1.0 - 0.081395
...