У меня есть набор данных из 1500 записей с двумя несбалансированными классами. Класс 0 - 1300 записей, в то время как Класс 1 - 200 записей, следовательно, отношение ard 6,5: 1.
Я построил случайный лес с этим набором данных для классификации. Из прошлого опыта я знаю, что если я использую весь набор данных, то отзыв будет довольно низким, что, вероятно, связано с несбалансированным классом.
Поэтому я решил провести выборку класса 0. Мои шаги следующие:
Произвольно разделить набор данных на набор обучений и тестов в соотношении 7: 3 (отсюда 1050 для тренировок и 450 для тестов.)
Сейчас набор поездов содержит ~ 900 данных класса 0 ~ 100 для класса 1. Я сгруппировал ~ 900 данных класса 0 и подобрал их (пропорционально) до ~ 100 записей.
Так что теперь поездный набор ~ 100 Класс 0 + ~ 100 Класс 1 = всего ~ 200 записей, в то время как тестовый набор составляет 70 Класс 0 + 380 Класс 1 = всего 450 записей.
Вот мои вопросы:
1) Мои шаги действительны? Сначала я разделил поезд / тест, а затем провел выборку большинства классов поездов.
2) Теперь мой набор поездов (~ 200) <тестовый набор (450). Имеет ли это смысл? </p>
3) Производительность пока не очень хорошая. Точность 0,34, отзыв 0,72, а показатель f1 0,46. Есть ли способ улучшить? Нужно ли использовать CV?
Большое спасибо за помощь!