Я использую модель RandomForest, чтобы предсказать какой-то определенный сегмент в геноме.У меня есть положительный тренировочный набор из экспериментальных данных и случайного выбора отрицательного набора данных из всего генома.Изображения моего основного тренировочного набора содержат 50 положительных и 50 отрицательных наборов данных.Итак, я тренировал свою модель RF на основе этого тренировочного набора.Затем, что я сделал, я сохранил свой положительный тренировочный набор и случайно выбрал отрицательный набор данных из всего генома 10 раз.Итак, у меня есть 10 разных наборов данных с тем же положительным набором данных, что и у исходной модели, но с другим отрицательным набором данных.
Производительность основной модели на наборе тестирования (что составляет 25% от исходного набора данных и не видна модельюво время тренировки) составляет ~ 90%.Однако, когда я применил модель к 10 различным наборам данных (с другим отрицательным набором данных и одинаковыми положительными щетинами), производительность становилась выше и доходила до ~ 98%.Мне интересно, почему применение модели на новых наборах данных выше?
Спасибо M