Могу ли я использовать наборы данных из разных источников при проведении глубокого обучения - PullRequest
1 голос
/ 14 апреля 2019

Скажем просто, я хочу определить, есть ли у пациента рак легких или нет, используя рентгеновские снимки грудной клетки.

Проблема, с которой я здесь столкнулся, была: у меня 3 набора данных из 3 разных источников, 3темы были все рентгеновские снимки грудной клетки, предполагая, что все другие медицинские свойства также одинаковы.Первый набор данных содержит 130 изображений нормального и диагностированного рака пациента.Второй набор данных содержит 40 изображений нормальных пациентов. Третий набор данных содержит 120 изображений раковых пациентов.

Таким образом, я хочу объединить 3 набора данных из 3 различных источников для обучения и оценки моей модели.Я намереваюсь смешать и перемешать все данные, а затем начать разбивать их на поезд, валидацию, набор тестов.Это нормально?

Есть ли что-то еще, на что я должен обратить внимание?

1 Ответ

0 голосов
/ 15 апреля 2019

Насколько я знаю, обычное смешивание наборов данных не очень хорошая вещь, особенно когда наборы данных не очень похожи друг на друга. Однако в вашем случае вы говорите, что все они являются рентгеновскими изображениями легких человека. Мы ожидаем, что все изображения будут очень похожими, поэтому их смешивание не окажет негативного влияния на производительность, но, думаю, будет хорошим.

Наличие большого количества данных всегда хорошо в области глубокого обучения. Особенно большие нейронные сети нуждаются в огромных объемах данных. Ваши данные мне кажутся меньше. Я рекомендую вам использовать простые сети.

Короче говоря, возможно ли, что все объединенные изображения получены из одного и того же источника? то есть они похожи друг на друга в целом, но отличаются только в частях, где есть инфекция? Если так, продолжайте.

Удачи

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...