У меня есть набор данных из 190 образцов.
Я тренирую регрессионную модель, используя перекрестную проверку k-кратности.
Я использую форму r в квадрате для измерения производительности модели.
Однако иногда, в зависимости от процесса рандомизации процесса перекрестной проверки, r квадрат очень плох. Это происходит потому, что из нескольких выборок результаты регрессии очень далеки от ожидаемых. Но для большинства образцов регрессия очень хорошая.
Я думаю, что иногда в процессе перекрестной проверки я не включаю в выборки обучающего набора те же распределения вероятностей выборок с плохими результатами.
Мой вопрос: как я могу оценить мою модель справедливо, в этой ситуации?