Я использую python, в основном использую функции из пакета sklearn.
У меня есть несколько моделей, которые предсказывают результаты (двоичные или мультиклассовые), в Вложенная перекрестная проверка 5x5, которая дает мне AU C для каждого сгиба, и таким образом я могу вычислить среднее значение AU C для пяти сгибов. Затем я использовал метод Делонга для вычисления дисперсии, чтобы я мог обеспечить доверительные интервалы вокруг моего среднего AU C.
Моя проблема заключается в следующем:
1) Я разработал два типа моделей (с разными переменными), которые я хотел бы сравнить друг с другом. Я загрузил свои модели (то есть повторил их обе по 100 раз каждая), так что у меня есть 100 AUC и 100 отклонений на модель. Достаточно ли тогда рассчитать доверительные интервалы вокруг обеих моделей с результирующей дисперсией? Или есть какой-нибудь способ, которым я могу вычислить значение p, чтобы сравнить получающиеся AUC? Проблема, с которой я сталкиваюсь, заключается в том, что разбиения данных каждый раз разные, поэтому вы не можете точно сопоставить предсказания двух моделей и сравнить их с результатом.
2) Я разработал мультиклассовую модель (3 класса), а затем можно рассчитать AU C (ovr). Тем не менее, метод, который я нашел для вычисления дисперсии (DeLong), не позволяет результаты мультикласса. Известны ли вам какие-либо методы для расчета дисперсии (и в конечном итоге доверительных интервалов) с этими мультиклассовыми моделями?
Большое спасибо