Я недавно пробовал эту проблему множественной классификации на Kaggle, и это value_counts()
для меток:
2 1661772
4 1613640
8 1471098
5 1389385
9 1361200
3 1337218
7 1325075
6 1316784
10 1250655
1 1240152
0 1240152
Теперь я знаю, что она не сбалансирована, поэтому прежде всего мне нужно знаю, как его сбалансировать
Мне также нужно прочитать файл порциями, потому что у меня всего 16 ГБ памяти, и этого недостаточно, поэтому я использовал:
data_chunks = pd.read_csv(filename, chunk_size=1024)
data = next(iter(data_chunks))
и переменная data
содержит 1024 элемента, и все метки являются нулями, что представляет серьезную угрозу для нуля, потому что моя модель просто тренируется, чтобы вернуть ноль для всего. Поэтому мне нужно знать, как рандомизировать выбор фрагментов в функции read_csv()
Заранее спасибо
PS: я только что начал с реальных наборов данных вместо игрушечных на scikit-learn
, и если я допустил ошибку ладьи ie, тогда, пожалуйста, извините я