Я использовал пакет xgboost для создания модели с повышенным градиентом, аналогичной вопроснику в Интерпретация оси Y графиков частичной зависимости, создаваемых пакетом pdp , для прогнозирования события с крайне низкой вероятностью.
Моя модель (на удивление) имеет приличную прогностическую ценность, и теперь мне интересно понять и объяснить направление влияния каждой из переменных предиктора. Используя пакет pdp, я сгенерировал серию графиков частичной зависимости, которые, как я понимаю, иллюстрируют предельное влияние переменной-предиктора на независимую переменную в диапазоне значений.
Имея свои ограниченные знания, я могу сформулировать в целом что показывают сюжеты. (Пример вставлен здесь: ![enter image description here](https://i.stack.imgur.com/97hP0.png)
В этом случае увеличение времени прохождения повышает вероятность события до 30 минут, когда тренд меняется на противоположный. За пределами 30 минут пути время, вероятность события уменьшается.
Даже после прочтения документации и виньеток, я все еще не уверен, что адекватно понимаю, что именно захватывает ось Y. Что именно представляют собой значения? yhat "фактически означает? Я предполагаю, что это означает прогнозируемое значение y. И почему все значения являются отрицательными? Является ли это потому, что для каждого данного наблюдения вероятность крайне редкого события очень низка?