Что такое кривая «прогнозы для различных значений признаков» на графике характеристик Catboost? - PullRequest
0 голосов
/ 14 октября 2019

Сюжет, на который я ссылаюсь, можно найти здесь . Это воспроизводится путем вызова функции calc_feature_statistics.

Мне ясно, что обозначают сине-оранжевая кривая (средняя цель и средний прогноз). Что такое красная линия (прогнозы для различных значений характеристик)?

1 Ответ

0 голосов
/ 06 ноября 2019

по ссылке:

Чтобы вычислить его, значение функции последовательно изменяется, чтобы попасть в каждый сегмент для каждого входного объекта. Значение для сегмента на графике рассчитывается как среднее для всех объектов, когда значения их признаков изменяются, чтобы попасть в этот сегмент.

Насколько я понимаю, эти слова объясняются следующим образом:

например, у вас есть категориальная особенность с тремя возможными значениями: «Москва», «Лондон», «Нью-Йорк». Тогда:

  1. Давайте установим все значения этой функции в данных поезда как «Москва» и вычислим среднее прогнозирование среди всех данных с помощью модели, которую мы обучали ранее. Это будет точка красной линии для ведра 'Москва'

  2. Повторите предыдущий шаг со значением 'Лондон' -> это будет точка красной линии для ведра 'Лондон'

  3. То же самое для Нью-Йорка.
...