Я хотел бы заполнить отсутствующие значения (18543), присутствующие в целевом столбце / зависимой переменной Complaint-Status, в моих данных, имеющих дисбаланс классов.В целевом столбце пять классов (проблема классификации нескольких классов).
Каков наилучший способ заполнить эти значения без увеличения дисбаланса класса?
Набор данных
![enter image description here](https://i.stack.imgur.com/gLogP.png)
Заменаэти пропущенные значения в режиме столбца, т. е. «Закрыто с объяснением», только увеличат дисбаланс класса.
uniq, kounts = np.unique(df_ohe['Complaint-Status'], return_counts=True)
print(np.asarray((uniq, kounts)).T)
[['' 18543]
['Closed' 809]
['Closed with explanation' 34300]
['Closed with monetary relief' 2818]
['Closed with non-monetary relief' 5018]
['Untimely response' 321]]
Процент целевого класса
100*c_count.values/c_count.values.sum()
# array([55.49353654, 30.00048537, 8.11855879, 4.55920659, 1.30887088,
0.51934184])
Ожидаемый результат:
[['class_label', 18543]
['Closed' 809]
['Closed with explanation' 34300]
['Closed with monetary relief' 2818]
['Closed with non-monetary relief' 5018]
['Untimely response' 321]]