Чтобы быть точным c, сейчас я работаю с данными со 100 000 строками и 20 функциями, моя целевая переменная является категориальной, поэтому я использую случайный классификатор леса, Xgboost, LogisticRegression и т. Д. c. У меня есть двоичная функция 'A'
, которая в моем фрейме данных только 20% равна 1. Но все мои будущие данные будут иметь функцию 'A' == 1
. Если я тренирую свою модель с RF C, важность функции A не очень важна. Если я разделю свой набор поездов / тестов случайным образом, AU C моего набора тестов будет 0,8, но если я использую подмножество моих тестовых данных только с 'A' == 1
, AU C упадет до 0,72. Кто-нибудь знает, что мне делать в этой ситуации? Я не думаю, что мне следует отбрасывать все данные с помощью 'A' == 0