Я новичок в R, недавно я использовал стратифицированную выборку для разделения на поезда и тесты, чтобы убедиться, что целевая метка находится в равной пропорции для обоих. Теперь я хочу использовать понижающую выборку данных обучения, чтобы распределение населения / распределение поездов было одинаковым к новому распределению понижающей выборки.
Причина, по которой я хочу уменьшить выборку, заключается в том, что у меня 11 миллионов строк с 56 столбцами, и потребуется несколько дней, чтобы выполнить настройку параметров с помощью сетки / случайного / байесовского поиска
Я использую XGboost, и это проблема двоичной классификации
Буду очень признателен, если кто-нибудь сможет мне помочь в этом.
Ниже мой код
train_rows = sample.split(df$ModelLabel, SplitRatio=0.7) ## Stratiefied sampling
train = df[ train_rows,]
test = df[!train_rows,]`enter code here`