Приведет ли избыточная выборка к переоснащенной модели? - PullRequest
0 голосов
/ 30 сентября 2018

Целевое распределение атрибутов в настоящее время выглядит следующим образом:

mydata.groupBy("Churn").count().show()

+-----+-----+
|Churn|count|
+-----+-----+
|    1|  483|
|    0| 2850|
+-----+-----+

Мои вопросы:

  • методы передискретизации, такие как: manully, smote, adasyn собираетесь использовать имеющиеся данные для создания новых точек данных?

  • Если мы будем использовать такие данные для обучения модели классификации, не будет ли она переопределена?

1 Ответ

0 голосов
/ 30 сентября 2018

мой вопрос: любой метод передискретизации (вручную, smote, adasyn) будет использовать доступные данные для создания новых точек данных.

  • Проблемы с дисбалансом данных в основном решаются втри шага:
    1. Превышение выборки для класса меньшинства.
    2. Сокращение выборки для класса большинства.
    3. Синтезирование новых классов меньшинства.

SMOTE (Техника избыточной выборки синтетического меньшинства) подпадает под третий шаг.Это процесс создания новых классов меньшинств из наборов данных.

Процесс в SMOTE упоминается ниже:

enter image description here

Итак,это немного умнее , чем просто избыточная выборка.

Если мы используем такие данные для построения классификационной модели, не будет ли она переопределена?

Правильный ответ будет ВЕРОЯТНО .Попробуйте!

Вот почему мы используем наборы тестов и перекрестная проверка , чтобы попытаться понять, будет ли модель работать с невидимыми данными!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...