В настоящее время я работаю с набором данных обзора приложений, чтобы предсказать спам.Очевидно, что обзоры, помеченные как спам, являются лишь небольшой частью набора данных из 20 000 записей.Стоит ли копировать или переделывать данные для лучшей производительности модели?Если да, то какие методы могут быть применены к строкам, такие как SMOTE, ROS и т. Д.
Пример данных
review_text sentiment error_related
0 [simple, effective, way, new, word, kid] 1 0.0
1 [fh, fcfatgv] 1 1.0
2 [son, loved, easy, even, though, son, first, g... 1 0.0
Распределение данных на данный момент
0.0 - 0.918605
1.0 - 0.081395