Обучающие / тестовые наборы данных в машинном обучении - PullRequest
0 голосов
/ 26 марта 2020

У меня просто общий вопрос:

На предыдущей работе мне было поручено создать серию нелинейных моделей для количественной оценки влияния определенных факторов на количество поданных медицинских исков. У нас был набор переменных, которые мы будем использовать во всех моделях (например, состояние, год, пол и т. Д. c.). Мы использовали все наши данные для построения этих моделей; Это означает, что мы никогда не разделяем данные на наборы обучающих и тестовых данных.

Если бы мне пришлось go вовремя вернуться к этой работе и разделить данные на наборы обучающих и тестовых данных, какие бы были преимущества этого подхода? Помимо оценки точности прогнозирования наших моделей. Что является аргументом для того, чтобы не разбивать данные, а затем подбирать модель? До сих пор никогда особо не задумывался об этом - любопытно, почему мы не воспользовались этим подходом.

Спасибо!

1 Ответ

1 голос
/ 26 марта 2020

Единственная цель отложить тестовый набор - оценить точность прогноза. Тем не менее, это нечто большее, чем просто проверка числа и размышление: «Вот как работает моя модель»!

Знание того, как ваша модель работает в данный момент, дает вам важный ориентир для потенциальных улучшений модели. Иначе как вы узнаете, увеличивает ли добавление функции производительность модели? Кроме того, как вы узнаете, лучше ли ваша модель, чем просто случайное предположение? Иногда чрезвычайно простые модели превосходят более сложные.

Другая вещь - это удаление характеристик или наблюдений. Это немного зависит от типа используемых вами моделей, но некоторые модели (например, k-Nearest-Neighbours) работают значительно лучше, если вы удалите неважные функции из данных. Аналогично, предположим, что вы добавляете больше обучающих данных, и внезапно производительность теста вашей модели значительно падает. Возможно, что-то не так с новыми наблюдениями? Вы должны знать об этих вещах.

Единственный аргумент, который я могу придумать, чтобы не использовать набор тестов, - это то, что в противном случае у вас будет слишком мало обучающих данных для оптимальной работы модели.

...