Чрезвычайно изменяющийся квадратный показатель на небольшом наборе данных - PullRequest
0 голосов
/ 31 мая 2018

Я в настоящее время нахожусь в середине регресса-назначенца.Нам был передан очень маленький набор данных, состоящий из 47 точек данных с 2 функциями и 1 целевым значением.Это выглядит следующим образом:

N level,species,Plant Weight(g)
L,brownii,0.3008
L,brownii,0.3288
M,brownii,0.3304
M,brownii,0.388
M,brownii,0.406
H,brownii,0.3955
H,brownii,0.3797
H,brownii,0.2962

Для каждого растения есть 3L, 3M и 3H (таким образом, 9 для каждого растения).Задание получает лучший результат в квадрате, но 6 точек данных удерживаются (6 точек данных удаляются из полученного мной набора данных, то есть для каждого цветка (всего 6) удаляются одна точка данных L, M или H).Как вы можете видеть в примере abvoe, один из "brownii" удален из L. Я пробовал несколько алгоритмов регрессии, пробовал KFolds, LeaveOneOut и расщепление набора данных вручную, но кажется, что набор данных настолько мал, что в зависимости от тестаданные, результат варьируется ОЧЕНЬ много. На некоторых тестовых данных я могу получить оценку 0,95, но на некоторых я могу получить только 0,2.

Есть ли какой-либо способ достижения какой-либо согласованности здесь?

...