Скажем просто, я хочу определить, есть ли у пациента рак легких или нет, используя рентгеновские снимки грудной клетки.
Проблема, с которой я здесь столкнулся, была: у меня 3 набора данных из 3 разных источников, 3темы были все рентгеновские снимки грудной клетки, предполагая, что все другие медицинские свойства также одинаковы.Первый набор данных содержит 130 изображений нормального и диагностированного рака пациента.Второй набор данных содержит 40 изображений нормальных пациентов. Третий набор данных содержит 120 изображений раковых пациентов.
Таким образом, я хочу объединить 3 набора данных из 3 различных источников для обучения и оценки моей модели.Я намереваюсь смешать и перемешать все данные, а затем начать разбивать их на поезд, валидацию, набор тестов.Это нормально?
Есть ли что-то еще, на что я должен обратить внимание?