перемешивать или нет при разделении поезда и тестового набора - PullRequest
0 голосов
/ 30 апреля 2018

Мне нужна модель, чтобы предсказать класс. Поэтому я должен разделить свои данные на обучающие, проверочные и тестовые наборы. Сначала я перетасовываю свои данные (80% для набора поездов и 20% для набора тестов). Затем, поскольку я должен определить некоторые гиперпараметры, я разделил свой набор поездов, используя 10-кратную перекрестную проверку. Наконец, я тренирую свою модель, используя набор поездов (80% данных) и указанные гиперпараметры. У меня вопрос. Это неправильно, что я сначала перетасовываю свои данные, а затем разделяю их? Некоторые исследователи считают, что если вы хотите утверждать, что ваша модель может предсказать будущие данные, вам не следует перетасовывать данные. Вы должны выбрать последние 20% данных в качестве тестового набора. Это правильно? я могу перетасовать свои данные? не могли бы вы представить мне академическую книгу или статью для решения моей проблемы? большое спасибо

Ответы [ 2 ]

0 голосов
/ 29 августа 2018

Независимо от какой-либо техники ML, могут быть разные способы оценки ваших результатов. В вашей задаче вы должны сначала перемешать данные, а затем разбить их на наборы поездов и тестов. Эта перестановка должна быть случайной; чтобы избежать смещения, повторите этот процесс несколько раз, а затем сообщите средние результаты. Вы также можете вычислить стандартное отклонение вашей ошибки / точности, чтобы увидеть, сильно ли меняются результаты или нет. Если да, то, возможно, ваша модель не обучается должным образом, и вам может понадобиться попробовать другой метод, увеличить объем данных или сделать что-то еще. Для получения информации о проблемах типа НЛП, советы Гулге по тасованию можно проверить здесь Шаг 3: Подготовьте свои данные

0 голосов
/ 30 апреля 2018

Лучше перемешать. Если порядок примеров таков, что более ранние примеры отличаются от более поздних, разделение по порядку может привести к значительному различию данных обучения и испытаний, что сделает перекрестную проверку менее значимой. Перестановка уменьшит вероятность этого.

...