Разделение набора данных в сегменте semanti c - PullRequest
0 голосов
/ 04 мая 2020

Я работаю над задачей сегментации биомедицинских изображений. Данные, которые я получил из больницы, были разбиты на тренировочный набор, проверочный набор, тестовый набор. Но я запутался в разделении.

Данные состоят из изображений от разных пациентов, у каждого пациента есть 2–3 2D-среза, взятых из 3D-изображения. Для одного пациента его или ее 2–3 среза смежны или близки друг к другу , что означает, что эти срезы имеют только очень небольшие различия , которые едва различимы невооруженным глазом. Эти 2–3 среза делятся на тренировочный набор, набор тестов и набор валидации. Таким образом, соотношение тренировочного набора, тестового набора и проверочного набора близко к 1: 1: 1.

Тем не менее, разделение наборов медицинских изображений, которые я обнаружил, в основном основано на пациентах. Три набора представляют собой срезы разных пациентов, вместо того, чтобы распределять срезы одного и того же пациента на три набора, как в случае с больницей. Я приведу пример.

Пример

Пусть i_j - это j-й срез i-го пациента, а i_j & i_j + 1 - смежные срезы , Все номера срезов следующие:

1_1 1_2 1_3 / 2_1 2_2 2_3 / 3_1 3_2 3_3 / 4_1 4_2 / 5_1 5_2

Возможное разбиение на путь в больницу :

Поезд: 1_1 2_1 3_1 4_1 5_1 Val: 1_2 2_2 3_2 4_2 Тест: 1_3 2_3 3_3 5_2

Возможное разделение на мой путь :

Поезд: 1_1 1_2 1_3 2_1 2_2 2_3 4_1 4_2 Val: 3_1 3_2 3_3 Тест: 5_1 5_2

Я думаю, что во-первых, тренировочный набор, набор проверки и набор тестов на самом деле слишком похожи. Это повысит уровень точности набора проверки и набора обучения, но способность модели к обобщению будет хуже. Так какой метод расщепления правильный? Или оба в порядке?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...