Извините за странное название, я не знаю, как лучше выразить свою проблему. Я работаю со страховым набором данных, чтобы предсказать будущие расходы по претензиям для данного полиса.
Для тех, кто работал с данными страховых претензий, вы знаете, что претензии в значительной степени 0-взвешенные. Ранее я сталкивался с проблемой, когда регрессия для всего набора данных не работает должным образом из-за перекоса данных и непрерывного дискретного распределения распределения.
Я пробовал некоторые дистрибутивы Tweedie в R, чтобы помочь с этим разъединением, но в итоге я пошел другим путем.
Сначала я решил классифицировать данные на "Сумма заявки = 0" и "Сумма заявки! = 0", используя классификатор опорных векторов sklearn.svm.svc
(с обучением 98% и точностью теста 95%),где, если прогнозируется, что сумма претензии будет = 0, она будет введена в регрессионную модель для прогнозирования суммы претензии. Я решил пойти с регрессией гребня sklearn.linear_model.Ridge
для этой части и достиг относительно хорошего $ R ^ 2 $ 0,67 для тестового набора (данные реального мира, поэтому я не ожидаю ничего экстраординарного).
Итак, мой вопрос: как лучше всего оценить эту составную модель, особенно в python? Как вы думаете, MSE будет хорошим показателем? Единственная другая модель, с которой я могу сравнить это базовая линейная регрессия (для всего набора данных без предварительной классификации).
Конечно, не стесняйтесь предлагать альтернативы этой двухкомпонентной модели регрессии классификации.
РЕДАКТИРОВАТЬ: Чтобы уточнить, я выбрал эти конкретные модели (например, для нейронных сетей) из-за их способности переводить в простую математику для различных приложений.