Обнаружение разделенного объекта "Поезд / Тест" - PullRequest
0 голосов
/ 05 марта 2020

Есть ли скрипт / функция для разделения данных, подсчитывающих количество появлений классов в каждом изображении и балансирующих их? Я попробовал sklearn train_test_split следующим образом:

data = pd.read_csv('train_labels.csv')
data.head()

Класс - это то, что я хочу предсказать, на одном изображении я могу иметь 0..n прямоугольников, и у каждого прямоугольника есть класс.

enter image description here

data = data.drop_duplicates(subset="filename")
y = data['class']
X = data.drop('class',axis = 1)
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2)

Но когда я удаляю дубликаты в именах файлов, я теряю информацию и, возможно, отправляю файлы для обучения или тестирования со многими другими классами, но если я не Я не могу удалить их, я могу отправить файл в поезд и проверить.

Спасибо за вашу помощь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...