Как можно рассчитать MAPE, если некоторые из фактических значений в наборе данных имеют 0 значений? - PullRequest
0 голосов
/ 25 октября 2019

Я новичок в области обработки данных и пытаюсь понять разницу в прогнозе и фактических данных.

Допустим, у меня есть фактические данные:

27.580
25.950
 0.000 (Sum = 53.53)

И мои прогнозируемые значения с использованием XGboost:

    29.9
    25.4
    15.0 (Sum = 70.3)

Лучше просто оценить по сумме? пример добавить все действительные минус все предсказанные? Разница = 70,3 - 53,53?

Или лучше оценить разницу на основе методов прогнозирования ошибок, таких как MSE, MAE, RMSE, MAPE?

Так как, я читаю MAPE, является наиболее широко принятым,как это может быть реализовано в тех случаях, когда 0 является знаменателем, как видно из моих фактических данных выше?

Есть ли лучший способ оценить отклонение от фактических значений или это единственные допустимые методы? Моя цель - построить больше прогностических моделей с разными переменными, которые дадут мне разные прогнозируемые значения, а затем выбрать ту, которая имеет наименьшее отклонение от фактических значений.

1 Ответ

0 голосов
/ 28 октября 2019

Если вы хотите оценить, основываясь на каждой точке или сумме, это зависит от ваших данных и вашего варианта использования.

Например, если каждая точка представляет временной интервал, и важна точность каждого временного сегмента (например, для производственного плана), то я бы сказал, что для каждого сегмента необходимо выполнить оценку.

Если вы хотите измерить точность суммы, вы можете также сделать прогноз на основе этой суммы.

По вашему вопросу о MAPE нет способа обойти упомянутую здесь проблему. Ваши данные должны быть ненулевыми, чтобы MAPE был ценным. Если вам нужно оценить только один временной ряд, вы можете вместо этого использовать MAE, и тогда у вас не будет проблемы с точностью до бесконечности / неопределенности. Но есть много способов измерить точность, и мой опыт показывает, что это очень сильно зависит от вашего варианта использования и набора данных, какой из них предпочтительнее. См. статью Хиндмана о точности для прерывистого спроса , где приведены некоторые хорошие моменты о мерах точности.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...