Проект машинного обучения: разделить обучающие / тестовые наборы до или после исследовательского анализа данных? - PullRequest
0 голосов
/ 21 января 2019

Лучше ли разделить ваши данные на обучающие и тестовые наборы, прежде чем проводить какой-либо исследовательский анализ данных, или все исследования проводятся исключительно на основе обучающих данных?

Я работаю над своим первым проектом полного машинного обучения (система рекомендаций для проекта capstone) и ищу разъяснения по порядку операций. Моя грубая схема такова: импортировать и очищать, выполнять предварительный анализ, обучать мою модель, а затем оценивать на тестовом наборе.

Сейчас я занимаюсь разведочным анализом данных - изначально ничего особенного, только начиная с распределения переменных и тому подобного. Но я не уверен: стоит ли разбивать мои данные на наборы для обучения и тестирования до или после поискового анализа?

Я не хочу потенциально загрязнять обучение алгоритму, проверяя набор тестов. Однако я также не хочу пропустить визуальные тренды, которые могут отражать реальный сигнал, который мой бедный человеческий глаз может не увидеть после фильтрации, и, таким образом, потенциально пропустить исследование важного и актуального направления при разработке моего алгоритма.

Я проверил другие потоки, например this , но те, которые я обнаружил, похоже, спрашивают больше о вещах, таких как регуляризация или фактическое манипулирование исходными данными. Ответы, которые я нашел, были неоднозначными, но расставили приоритеты в первую очередь. Однако я не планирую делать какие-либо реальные манипуляции с данными перед их разбиением (кроме проверки распределений и, возможно, выполнения некоторых преобразований факторов).

Что вы делаете в своей работе и почему?

Спасибо за помощь новому программисту!

Amy

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...