необходимо проверить IID набора данных и выполнить статистический тест для идентичного распределения после обучения и разделения данных теста? - PullRequest
1 голос
/ 10 января 2020

Я знаю, что больше всего алгоритмы машинного обучения основывались на предположении, что входные данные - это IID (независимо идентичное распределение). Поэтому мы обычно не выполняем статистический тест для сравнения статистики тестовых и тренировочных данных.

На практике строго мы не можем гарантировать, что данные распределяются одинаково. Не проверяя распределение двух наборов данных, происходит смещение концепции (или смещение данных). Таким образом, наша модель не может работать точно. тем не менее, большинство постов и учебников на веб-сайтах не охватывают это.

необходимо проверить IID и выполнить статистическое сравнение после обучения и разделения данных теста? например, тест с двумя выборками для сравнения среднего значения набора обучающих данных и набора тестовых данных

1 Ответ

1 голос
/ 10 января 2020

Исходя из предположения, что исходные данные (до разделения) являются IID и что они велики, вы можете доказать, что разделение, вызванное случайным разделением, также является IID, это может быть интуитивно понятно из того факта, что если данные теста То, что вы получаете после разделения, является iid-образцом, взятым из исходных данных, и, таким образом, имеет одинаковый импульс при любом порядке этих данных, и, таким образом, они имеют одинаковое распределение, тот факт, что он независим, связан с выборкой. Сам процесс, который берет образец самостоятельно. Теперь для случая, когда у вас небольшой набор данных, это больше не так, в этом случае многие люди хорошо делают некоторые другие разбиения train_test, может быть, наиболее известным и простым является использование стратифицированного разделения, т.е. вы хорошо разделяете данные Резервируя пропорцию классов, вы можете сделать это, установив параметр stratify=True, если вы используете sklearn.model_selection.train_test_split. Конечно, этот метод не гарантирует, что распределение входов между обучением и тестированием одинаково, но, по крайней мере, он гарантирует, что распределение меток одинаково.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...