Чувствительность по сравнению с положительным прогнозируемым значением - что лучше? - PullRequest
0 голосов
/ 11 июня 2018

Я пытаюсь построить модель на несбалансированном наборе данных класса (двоичные - 1: 25% и 0 - 75%).Пробовал с алгоритмами классификации и ансамблевой техникой.Я немного запутался в следующих двух понятиях, так как меня больше интересует прогнозирование большего числа единиц.

1. Should i give preference to Sensitivity or Positive Predicted Value. 
Some ensemble techniques give maximum 45% of sensitivity and low Positive Predicted Value.
And some give 62% of Positive Predicted Value and low Sensitivity.


2. My dataset has around 450K observations and 250 features. 
After power test i took 10K observations by Simple random sampling. While selecting 
variable importance using ensemble technique's the features 
are different compared to the features when i tried with 150K observations. 
Now with my intuition and domain knowledge i felt features that came up as important in 
150K observation sample are more relevant. what is the best practice?

3. Last, can i use the variable importance generated by RF in other ensemple 
techniques to predict the accuracy?

Не могли бы вы помочь мне, так как я немного запутался в том, что w

1 Ответ

0 голосов
/ 11 июня 2018

Предпочтение между чувствительностью и положительным прогнозным значением зависит от вашей конечной цели анализа.Разница между этими двумя значениями хорошо объясняется здесь: https://onlinecourses.science.psu.edu/stat507/node/71/ В целом, это две меры, которые смотрят на результаты с двух разных точек зрения.Чувствительность дает вам вероятность того, что тест найдет «условие» среди тех, кто его имеет.Позитивная Прогностическая ценность смотрит на распространенность «состояния» среди тех, кто проходит тестирование.

Точность зависит от результата вашей классификации: она определяется как (истинно положительный + истинно отрицательный) / (всего), значение переменной не зависит от РФ.

Также возможночтобы компенсировать дисбалансы в наборе данных, см. https://stats.stackexchange.com/questions/264798/random-forest-unbalanced-dataset-for-training-test

...