Мне нужна модель, чтобы предсказать класс. Поэтому я должен разделить свои данные на обучающие, проверочные и тестовые наборы. Сначала я перетасовываю свои данные (80% для набора поездов и 20% для набора тестов). Затем, поскольку я должен определить некоторые гиперпараметры, я разделил свой набор поездов, используя 10-кратную перекрестную проверку. Наконец, я тренирую свою модель, используя набор поездов (80% данных) и указанные гиперпараметры.
У меня вопрос. Это неправильно, что я сначала перетасовываю свои данные, а затем разделяю их? Некоторые исследователи считают, что если вы хотите утверждать, что ваша модель может предсказать будущие данные, вам не следует перетасовывать данные. Вы должны выбрать последние 20% данных в качестве тестового набора. Это правильно? я могу перетасовать свои данные? не могли бы вы представить мне академическую книгу или статью для решения моей проблемы?
большое спасибо