Есть ли скрипт / функция для разделения данных, подсчитывающих количество появлений классов в каждом изображении и балансирующих их? Я попробовал sklearn train_test_split следующим образом:
data = pd.read_csv('train_labels.csv')
data.head()
Класс - это то, что я хочу предсказать, на одном изображении я могу иметь 0..n прямоугольников, и у каждого прямоугольника есть класс.
data = data.drop_duplicates(subset="filename")
y = data['class']
X = data.drop('class',axis = 1)
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2)
Но когда я удаляю дубликаты в именах файлов, я теряю информацию и, возможно, отправляю файлы для обучения или тестирования со многими другими классами, но если я не Я не могу удалить их, я могу отправить файл в поезд и проверить.
Спасибо за вашу помощь.