Чтобы убедиться, что между наборами обучения / проверки / тестирования нет утечки информации, я кластеризирую свой набор данных.
В качестве примера представьте, что я хочу обучить алгоритм, чтобы определить, хмурится ли кто-тоили улыбается.Поскольку один и тот же человек может появляться на многих фотографиях (сфотографированных под другим углом, с другим фоном и т. Д.), Я бы поместил все фотографии, принадлежащие одному человеку, в один кластер.Я бы использовал отдельные кластеры для обучения / проверки / тестирования модели ML.
Однако я заметил, что многие люди отфильтровывают данные, чтобы получить их не избыточный набор данных, поэтому кажется, что после кластеризации они используют только один или (фиксированное количество) выборок из каждого кластера (возможно,одинаковое количество положительных и отрицательных образцов из каждого кластера).Это необходимо во всех случаях (все алгоритмы ML) или я могу хранить все свои данные в некоторых ситуациях?Что делать с кластерами, в которых у меня есть только положительные или только отрицательные точки данных (сохранить / отклонить или, возможно, поместить в тестовый набор)?
Просто последнее замечание, а не распознавание изображений. На самом деле я работаю над проблемой химии - размышления об обучении случайных лесов и деревьев решений для повышения градиента на основе некоторых функций.Спасибо.