Предложение по улучшению модели машинного обучения для задачи обучения под контролем регресса - PullRequest
0 голосов
/ 19 февраля 2020

Набор данных содержит 143 точки с 40 объектами и 8 целевыми переменными, все непрерывно по типу. Расширение входного вектора от 6 до 66 и выходного вектора от 0 до 50. Выходные данные содержат много нулевой точки, как показано на рисунке: гистограмма выходных переменных во-первых, разработал классификатор с использованием поддержки vectpt Random лес, повышение градиента для прогнозирования, равны ли выходные значения нулю или нет. если нет, то построил регрессор, используя Случайный лес, повышение градиента и накопитель регрессии. Метри c Chooen являются MSE и MAE. Я оптимизировал модель классификатора и регрессора с помощью случайного поиска по списку и поиска по сетке. Тестовый набор имеет 36 точек данных. Матрица смешения классификатора:

Набор для тестирования MSE и MAE показан на рисунке: MAE MSE

Изготовление: FYO [[8 3] [1 24]] точный вызов f1-оценка поддержки

     0.0       0.89      0.73      0.80        11
     1.0       0.89      0.96      0.92        25

accuracy                           0.89        36

макрос avg 0.89 0.84 0.86 36 взвешенный avg 0.89 0.89 0.89 36

Изготовление: FBLU [[23 6] [0 7]] точный вызов f1-оценка поддержки

     0.0       1.00      0.79      0.88        29
     1.0       0.54      1.00      0.70         7

accuracy                           0.83        36

макрос avg 0,77 0,90 0,79 36 средневзвешенный средний 0,91 0,83 0,85 36

Создание: FYEL [[25 3] [3 5]] точность отзыв f1-оценка поддержки

     0.0       0.89      0.89      0.89        28
     1.0       0.62      0.62      0.62         8

accuracy                           0.83        36

макрос avg 0,76 0,76 0,76 36 средневзвешенная средняя 0,83 0,83 0,83 36

Создание: IRED [[13 9] [2 12]] точность отзыва F1-оценка support

     0.0       0.87      0.59      0.70        22
     1.0       0.57      0.86      0.69        14

accuracy                           0.69        36

macro avg 0.72 0.72 0.69 36 weighted avg 0.75 0.69 0.70 36

Создание: FBLK [[7 3] [2 24]] точный вызов f1-оценка поддержка

     0.0       0.78      0.70      0.74        10
     1.0       0.89      0.92      0.91        26

accuracy                           0.86        36

macro avg 0,83 0,81 0,82 36 средневзвешенное значение Avg 0,86 0,86 0,86 36

Создание: MGNT [[29 2] [3 2]] точный вызов f1-оценка поддержки

     0.0       0.91      0.94      0.92        31
     1.0       0.50      0.40      0.44         5

accuracy                           0.86        36

MACR о ср 0,70 0,67 0,68 36 взвешенных сред 0,85 0,86 0,85 36

Создание: FGRN [[12 3] [4 17]] точный вызов f1-оценка поддержки

     0.0       0.75      0.80      0.77        15
     1.0       0.85      0.81      0.83        21

accuracy                           0.81        36

макрос avg 0,80 0,80 0,80 36 средневзвешенная средняя 0,81 0,81 0,81 36

Изготовление: HTWH [[1 0] [4 31]] поддержка точного отзыва f1-оценка

     0.0       0.20      1.00      0.33         1
     1.0       1.00      0.89      0.94        35

accuracy                           0.89        36

макрос средняя 0,60 0,94 0,64 36 взвешенная средняя 0,98 0,89 0,92 36

Из графиков MSE и MAE очевидна перегрузка. Основная причина в том, что в любой из выходных по крайней мере 3 или 4 целевые переменные равны нулю, вызывая большие MSE и MAE при прогнозировании. Я пытался позаботиться об этом с помощью встроенного классификатора, но, похоже, он не очень полезен.

Пожалуйста, предоставьте предложения по улучшению модели MSE?

...