Question

Я использую модель RandomForest, чтобы предсказать какой-то определенный сегмент в геноме.У меня есть положительный тренировочный набор из экспериментальных данных и случайного выбора отрицательного набора данных из всего генома.Изображения моего основного тренировочного набора содержат 50 положительных и 50 отрицательных наборов данных.Итак, я тренировал свою модель RF на основе этого тренировочного набора.Затем, что я сделал, я сохранил свой положительный тренировочный набор и случайно выбрал отрицательный набор данных из всего генома 10 раз.Итак, у меня есть 10 разных наборов данных с тем же положительным набором данных, что и у исходной модели, но с другим отрицательным набором данных.

Производительность основной модели на наборе тестирования (что составляет 25% от исходного набора данных и не видна модельюво время тренировки) составляет ~ 90%.Однако, когда я применил модель к 10 различным наборам данных (с другим отрицательным набором данных и одинаковыми положительными щетинами), производительность становилась выше и доходила до ~ 98%.Мне интересно, почему применение модели на новых наборах данных выше?

Спасибо M

Производительность применения основной модели леса Рандома отличается с одинаковым положительным набором и разными отрицательными наборами?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Производительность применения основной модели леса Рандома отличается с одинаковым положительным набором и разными отрицательными наборами?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы