sk узнать, что делать, если данные, которые я хочу предсказать, имеют другое распределение с данными, которые у меня есть прямо сейчас - PullRequest
0 голосов
/ 09 июля 2020

Чтобы быть точным c, сейчас я работаю с данными со 100 000 строками и 20 функциями, моя целевая переменная является категориальной, поэтому я использую случайный классификатор леса, Xgboost, LogisticRegression и т. Д. c. У меня есть двоичная функция 'A', которая в моем фрейме данных только 20% равна 1. Но все мои будущие данные будут иметь функцию 'A' == 1. Если я тренирую свою модель с RF C, важность функции A не очень важна. Если я разделю свой набор поездов / тестов случайным образом, AU C моего набора тестов будет 0,8, но если я использую подмножество моих тестовых данных только с 'A' == 1, AU C упадет до 0,72. Кто-нибудь знает, что мне делать в этой ситуации? Я не думаю, что мне следует отбрасывать все данные с помощью 'A' == 0

...