Размер набора данных и необходимость перекрестной проверки (медицинская область)? - PullRequest
0 голосов
/ 01 августа 2020

В настоящее время я представляю себе модель глубокого обучения, которая классифицирует формы пульсовых сигналов (нормальные и патологические c).

В настоящее время нет. набора данных пульса составляет около 2000000, а баланс нормальных и патологических c метка распределена примерно 3: 1.

Стратифицированная 10-кратная перекрестная проверка в настоящее время слишком трудоемка и трудоемка для моих компьютерная система.

Итак, это мой вопрос. Обязательно ли требуется перекрестная проверка при создании модели глубокого обучения с примерно 2 миллионами данных?

Я хотел бы задать еще один вопрос.

Я хочу спрогнозировать исход пациента по результатам классификации импульсов из модели глубокого обучения, чтобы дополнительно оценить применимость моей модели глубокого обучения (2 миллиона данных были извлечены примерно у 300 пациентов).

Имеет ли этот подход смысл?

Пациенты с худшими результатами неизбежно имеют много патологических c импульсов, поэтому я обеспокоен тем, что модель глубокого обучения может совершить обман.

Я все еще очень запутался, потому что у меня очень мало опыта в исследованиях машинного обучения в медицинской сфере.

Спасибо за помощь.

С уважением,

1 Ответ

0 голосов
/ 01 августа 2020

CV необходим как прокси для оценки качества модели в целях тестирования и настройки ее параметров. На мой взгляд, 10-кратное резюме - это слишком много. При использовании 2M элементов вы можете сэкономить 10-20% данных (выбранных случайным образом) для простого разделения поездов и тестов. свертки необходимы при работе с меньшим набором данных или при попытке извлечь большую часть ваших данных. Даже в этом случае 10-кратное увеличение - это перебор. Обычно я видел 3-5 складок.

...