Если у вас есть как данные обучения (помеченные как один), так и тестовые (немаркированные), тогда перекрестная проверка использует сами эти данные обучения, при каждом сгибе ваши данные разделяются на разные данные о поездах и тестах, что больше похоже на второе записанное вами замечание.
Нет, после перекрестной проверки гиперпараметры не будут настроены, вам придется сделать это вручную или с помощью сетки или случайного поиска.
Поскольку вы упоминали, что перекрестная проверка занимает слишком много времени, и вы думаете об использовании набора данных проверки для настройки гиперпараметра, я предлагаю вам пропустить всю эту часть и перебросить ваши данные в Gradient Boosted Trees, вашу часть перекрестной проверки будет автоматически решена, а затем параметры настройки и проверки точности.
Еще лучше предложение выбросить ваши данные в TPOT. Это библиотека Python Automated Machine Learning, которая оптимизирует конвейеры машинного обучения с использованием генетического программирования. При выполнении большого количества итераций вывод будет наилучшим образом оптимизированным кодом с настроенными гиперпараметрами, в основном методом ансамбля, с максимальной точностью, которую вы можете получить. Также упоминается, как выполнялись другие алгоритмы. Это может занять много времени, чтобы закончить даже дольше, чем нейронная сеть, но иногда это стоит.