Я пытаюсь построить модель на несбалансированном наборе данных класса (двоичные - 1: 25% и 0 - 75%).Пробовал с алгоритмами классификации и ансамблевой техникой.Я немного запутался в следующих двух понятиях, так как меня больше интересует прогнозирование большего числа единиц.
1. Should i give preference to Sensitivity or Positive Predicted Value.
Some ensemble techniques give maximum 45% of sensitivity and low Positive Predicted Value.
And some give 62% of Positive Predicted Value and low Sensitivity.
2. My dataset has around 450K observations and 250 features.
After power test i took 10K observations by Simple random sampling. While selecting
variable importance using ensemble technique's the features
are different compared to the features when i tried with 150K observations.
Now with my intuition and domain knowledge i felt features that came up as important in
150K observation sample are more relevant. what is the best practice?
3. Last, can i use the variable importance generated by RF in other ensemple
techniques to predict the accuracy?
Не могли бы вы помочь мне, так как я немного запутался в том, что w