Лучше ли разделить ваши данные на обучающие и тестовые наборы, прежде чем проводить какой-либо исследовательский анализ данных, или все исследования проводятся исключительно на основе обучающих данных?
Я работаю над своим первым проектом полного машинного обучения (система рекомендаций для проекта capstone) и ищу разъяснения по порядку операций. Моя грубая схема такова: импортировать и очищать, выполнять предварительный анализ, обучать мою модель, а затем оценивать на тестовом наборе.
Сейчас я занимаюсь разведочным анализом данных - изначально ничего особенного, только начиная с распределения переменных и тому подобного. Но я не уверен: стоит ли разбивать мои данные на наборы для обучения и тестирования до или после поискового анализа?
Я не хочу потенциально загрязнять обучение алгоритму, проверяя набор тестов. Однако я также не хочу пропустить визуальные тренды, которые могут отражать реальный сигнал, который мой бедный человеческий глаз может не увидеть после фильтрации, и, таким образом, потенциально пропустить исследование важного и актуального направления при разработке моего алгоритма.
Я проверил другие потоки, например this , но те, которые я обнаружил, похоже, спрашивают больше о вещах, таких как регуляризация или фактическое манипулирование исходными данными. Ответы, которые я нашел, были неоднозначными, но расставили приоритеты в первую очередь. Однако я не планирую делать какие-либо реальные манипуляции с данными перед их разбиением (кроме проверки распределений и, возможно, выполнения некоторых преобразований факторов).
Что вы делаете в своей работе и почему?
Спасибо за помощь новому программисту!
Amy