Во-первых, Википедия рассматривает больных = 1.
Истинно положительно: больные люди правильно определены как больные
Во-вторых, у каждой модели есть некоторый порог, основанный на вероятностях положительного класса (обычно 0,5).
Таким образом, если пороговое значение равно 0,1, все выборки с вероятностями, превышающими 0,1, будут классифицироваться как положительные. Вероятности предсказанных выборок являются фиксированными, и пороговые значения будут варьироваться.
В roc_curve
scikit-learn увеличивает пороговое значение с:
0 (or minimum value where all the predictions are positive)
до
1 (Or the last point where all predictions become negative).
Промежуточные баллы определяются на основе изменения прогнозов с положительного на отрицательный.
Пример:
Sample 1 0.2
Sample 2 0.3
Sample 3 0.6
Sample 4 0.7
Sample 5 0.8
Самая низкая вероятность здесь равна 0,2, поэтому минимальный порог, чтобы иметь смысл, равен 0,2. Теперь, когда мы продолжаем увеличивать порог, так как в этом примере очень мало точек, пороговые точки будут меняться при каждой вероятности (и равны этой вероятности, потому что это точка, где меняется количество положительных и отрицательных сторон)
Negative Positive
<0.2 0 5
Threshold1 >=0.2 1 4
Threshold2 >=0.3 2 3
Threshold3 >=0.6 3 2
Threshold4 >=0.7 4 1
Threshold5 >=0.8 5 0