Сбалансированный показатель точности выше при расчете с использованием случайных 90% набора данных, чем при использовании полного набора данных - PullRequest
0 голосов
/ 23 октября 2019

Мой проект - классификация ультразвуковых 2D изображений, размер полного набора данных составляет примерно 1000 изображений. Для этого анализа 250 функций были изготовлены вручную путем расчета различных параметров целых изображений или горизонтальных срезов изображений. Для выбора функций Kbest с chi2 используется для выбора 50 лучших функций. Для расчета сбалансированной точности я использую sklearn.model_selection.cross_val_score, а также Random Forest и Extra Trees (1000 деревьев). Меня смущает то, что когда я случайным образом разделяю данные с train_test_split с соотношением 9: 1 и использую cross_val_score только для 90% данных, наивысшая оценка точности составляет 80% для случайного леса и 85% для дополнительных деревьев. Но когда я не применяю train_test_split и не вычисляю сбалансированную оценку точности для полного набора данных, наивысшая оценка не превышает 60%. Я ожидал, что получу лучшие результаты, когда добавлю больше данных, но произошло обратное. Буду признателен за любой совет или идею, как улучшить оценку точности.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...