Что если K в перекрестной проверке K-Fold слишком мал? - PullRequest
1 голос
/ 23 декабря 2019

Каковы последствия использования значения K, которое слишком мало по сравнению с набором данных?

Ответы [ 2 ]

0 голосов
/ 23 декабря 2019

K в К-кратной перекрестной проверке указывает, что во сколько равных частей мы хотим разделить наши тренировочные данные и выполнить повторную выборку K раз для заданных ограниченных обучающих данных.

Положительные стороны:

  • Хорошая модель может быть разработана даже с ограниченными данными.
  • Мы получаем оптимальное значение нашего гиперпараметра (k в KNN, альфа в наивном байесовском и т. Д. ), который дает нам лучший показатель производительности (точность, AUC, точность и т. д.).

Отрицательные значения:

  • В процессе обучения моделиK раз, время, необходимое для вычисления оптимального гиперпараметра, увеличивается в K раз.
0 голосов
/ 23 декабря 2019

Значение K указывает количество сгибов, на которые вы планируете разбить набор данных. Меньшие значения K означают, что набор данных разбит на меньшее количество частей, но каждая часть содержит больший процент набора данных.

Взятие набора данных со 100 строками.

  • 2Проверка поперечного сгиба - каждая складка будет содержать 50 строк.
  • Проверка перекрестного сгиба - Каждая складка будет содержать 10 строк.

Таким образом, при обучении проверка перекрестного сгиба будет 10иметь разделение теста поезда на 90-10, при этом в качестве 2-кратной перекрестной проверки будет разделено тестирование поезда на 50-50.

Использование большего количества сгибов предоставит модели больше данных для обучения,но потребуется гораздо больше времени, так как он должен тренироваться и проверять K раз.

...