Производительность применения основной модели леса Рандома отличается с одинаковым положительным набором и разными отрицательными наборами? - PullRequest
0 голосов
/ 06 декабря 2018

Я использую модель RandomForest, чтобы предсказать какой-то определенный сегмент в геноме.У меня есть положительный тренировочный набор из экспериментальных данных и случайного выбора отрицательного набора данных из всего генома.Изображения моего основного тренировочного набора содержат 50 положительных и 50 отрицательных наборов данных.Итак, я тренировал свою модель RF на основе этого тренировочного набора.Затем, что я сделал, я сохранил свой положительный тренировочный набор и случайно выбрал отрицательный набор данных из всего генома 10 раз.Итак, у меня есть 10 разных наборов данных с тем же положительным набором данных, что и у исходной модели, но с другим отрицательным набором данных.

Производительность основной модели на наборе тестирования (что составляет 25% от исходного набора данных и не видна модельюво время тренировки) составляет ~ 90%.Однако, когда я применил модель к 10 различным наборам данных (с другим отрицательным набором данных и одинаковыми положительными щетинами), производительность становилась выше и доходила до ~ 98%.Мне интересно, почему применение модели на новых наборах данных выше?

Спасибо M

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...