У меня в руках проблема классификации, которую я хотел бы решить с помощью алгоритма машинного обучения (возможно, Байес или Марковян, вопрос не зависит от используемого классификатора). Учитывая ряд обучающих примеров, я ищу способ измерить производительность внедренного классификатора с учетом проблемы перегрузки данных.
То есть: учитывая N [1..100] обучающих выборок, если я запускаю алгоритм обучения на каждой из выборок и использую эти же самые выборки для измерения пригодности, он может застрять в проблеме перегрузки данных - Классификатор будет знать точные ответы для тренировочных примеров, не обладая большой предсказательной силой, что сделает результаты пригодности бесполезными.
Очевидным решением было бы разделение помеченных вручную образцов на тренировочные и тестовые образцы; и я хотел бы узнать о методах отбора статистически значимых образцов для обучения.
Документы, указатели книг и PDF-файлы очень ценятся!