(Эта тема часто упоминается в литературе по ОД как приемлемая размер или форма набора данных, учитывая, что набор данных часто описывается как mxn матрица, в которой m - это количество строк (точек данных), а n - количество столбцов (объектов); очевидное m >> n является предпочтительным.)
В случае, я не знаю общего правила для приемлемого диапазона характеристик к наблюдениям; есть, вероятно, несколько причин для этого:
такое соотношение будет сильно зависеть от качества данных
(сигнал-шум); и
количество признаков - это только один элемент сложности модели (например, взаимодействие между функциями); а сложность модели является самым сильным фактором, определяющим количество экземпляров данных (точек данных).
Таким образом, существует два набора подходов к этой проблеме - которые, поскольку они противоположны, оба могут быть применены к одной и той же модели:
Пара предложений, по одному для каждого из двух указанных выше путей:
Устранить «несущественные» функции - т.е. те функции, которые не способствуют изменчивости вашей переменной ответа. Анализ основных компонентов (PCA) - это быстрый и надежный способ сделать это, хотя существует ряд других методов, которые обычно включаются в рубрику «уменьшение размеров».
Используйте Методы начальной загрузки вместо перекрестной проверки. Различие в методологии кажется небольшим, но (часто существенное) улучшение в уменьшении ошибки предсказания хорошо документировано для многослойных персептронов (нейронных сетей) (см., Например, Efron, B. и Tibshirani, RJ, Метод начальной загрузки: улучшения о перекрестной проверке , J. Американской статистической ассоциации , 92, 548-560., 1997). Если вы не знакомы с методами Bootstrap для разделения данных обучения и тестирования, общая методика аналогична перекрестной проверке, за исключением того, что вместо взятия подмножеств всего набора данных вы берете подвыборок . Раздел 7.11 Elements - хорошее введение в методы Bootstrap.
Лучшим единственным источником по этой общей теме, который я нашел, является Глава 7 Оценка и отбор моделей из превосходного трактата Элементы статистического обучения от Hastie Тибширани и Фридман. Эту книгу можно бесплатно загрузить с домашней страницы книги .