Понимание того, как интерпретировать / объяснить ось Y на графике частичной зависимости в R с использованием pdp и XGBOOST - PullRequest
0 голосов
/ 12 февраля 2020

Я использовал пакет xgboost для создания модели с повышенным градиентом, аналогичной вопроснику в Интерпретация оси Y графиков частичной зависимости, создаваемых пакетом pdp , для прогнозирования события с крайне низкой вероятностью.

Моя модель (на удивление) имеет приличную прогностическую ценность, и теперь мне интересно понять и объяснить направление влияния каждой из переменных предиктора. Используя пакет pdp, я сгенерировал серию графиков частичной зависимости, которые, как я понимаю, иллюстрируют предельное влияние переменной-предиктора на независимую переменную в диапазоне значений.

Имея свои ограниченные знания, я могу сформулировать в целом что показывают сюжеты. (Пример вставлен здесь: enter image description here

В этом случае увеличение времени прохождения повышает вероятность события до 30 минут, когда тренд меняется на противоположный. За пределами 30 минут пути время, вероятность события уменьшается.

Даже после прочтения документации и виньеток, я все еще не уверен, что адекватно понимаю, что именно захватывает ось Y. Что именно представляют собой значения? yhat "фактически означает? Я предполагаю, что это означает прогнозируемое значение y. И почему все значения являются отрицательными? Является ли это потому, что для каждого данного наблюдения вероятность крайне редкого события очень низка?

...