Набор данных содержит 143 точки с 40 объектами и 8 целевыми переменными, все непрерывно по типу. Расширение входного вектора от 6 до 66 и выходного вектора от 0 до 50. Выходные данные содержат много нулевой точки, как показано на рисунке: гистограмма выходных переменных во-первых, разработал классификатор с использованием поддержки vectpt Random лес, повышение градиента для прогнозирования, равны ли выходные значения нулю или нет. если нет, то построил регрессор, используя Случайный лес, повышение градиента и накопитель регрессии. Метри c Chooen являются MSE и MAE. Я оптимизировал модель классификатора и регрессора с помощью случайного поиска по списку и поиска по сетке. Тестовый набор имеет 36 точек данных. Матрица смешения классификатора:
Набор для тестирования MSE и MAE показан на рисунке: MAE MSE
Изготовление: FYO [[8 3] [1 24]] точный вызов f1-оценка поддержки
0.0 0.89 0.73 0.80 11
1.0 0.89 0.96 0.92 25
accuracy 0.89 36
макрос avg 0.89 0.84 0.86 36 взвешенный avg 0.89 0.89 0.89 36
Изготовление: FBLU [[23 6] [0 7]] точный вызов f1-оценка поддержки
0.0 1.00 0.79 0.88 29
1.0 0.54 1.00 0.70 7
accuracy 0.83 36
макрос avg 0,77 0,90 0,79 36 средневзвешенный средний 0,91 0,83 0,85 36
Создание: FYEL [[25 3] [3 5]] точность отзыв f1-оценка поддержки
0.0 0.89 0.89 0.89 28
1.0 0.62 0.62 0.62 8
accuracy 0.83 36
макрос avg 0,76 0,76 0,76 36 средневзвешенная средняя 0,83 0,83 0,83 36
Создание: IRED [[13 9] [2 12]] точность отзыва F1-оценка support
0.0 0.87 0.59 0.70 22
1.0 0.57 0.86 0.69 14
accuracy 0.69 36
macro avg 0.72 0.72 0.69 36 weighted avg 0.75 0.69 0.70 36
Создание: FBLK [[7 3] [2 24]] точный вызов f1-оценка поддержка
0.0 0.78 0.70 0.74 10
1.0 0.89 0.92 0.91 26
accuracy 0.86 36
macro avg 0,83 0,81 0,82 36 средневзвешенное значение Avg 0,86 0,86 0,86 36
Создание: MGNT [[29 2] [3 2]] точный вызов f1-оценка поддержки
0.0 0.91 0.94 0.92 31
1.0 0.50 0.40 0.44 5
accuracy 0.86 36
MACR о ср 0,70 0,67 0,68 36 взвешенных сред 0,85 0,86 0,85 36
Создание: FGRN [[12 3] [4 17]] точный вызов f1-оценка поддержки
0.0 0.75 0.80 0.77 15
1.0 0.85 0.81 0.83 21
accuracy 0.81 36
макрос avg 0,80 0,80 0,80 36 средневзвешенная средняя 0,81 0,81 0,81 36
Изготовление: HTWH [[1 0] [4 31]] поддержка точного отзыва f1-оценка
0.0 0.20 1.00 0.33 1
1.0 1.00 0.89 0.94 35
accuracy 0.89 36
макрос средняя 0,60 0,94 0,64 36 взвешенная средняя 0,98 0,89 0,92 36
Из графиков MSE и MAE очевидна перегрузка. Основная причина в том, что в любой из выходных по крайней мере 3 или 4 целевые переменные равны нулю, вызывая большие MSE и MAE при прогнозировании. Я пытался позаботиться об этом с помощью встроенного классификатора, но, похоже, он не очень полезен.
Пожалуйста, предоставьте предложения по улучшению модели MSE?