Достижение лучшего результата теста с меньшим количеством обучающих данных - почему? - PullRequest
0 голосов
/ 25 марта 2020

Я сейчас имею дело со странным набором данных. Я разделил его на 50% тренировок и 50% тестов. Я получаю лучшие результаты теста (а не тренировки!), Когда опускаю около 30% тренировочного набора, что я нахожу странно не интуитивным. Я пробовал разные тренировки и разделение тестов, и я всегда могу найти набор около 30% тренировочного набора, который ухудшает точность теста.

Что это говорит мне о данных? Эти ярлыки иногда неправильные? У меня слишком мало данных в наборе тестов, чтобы он был предвзятым? Или ...?

...