В чем разница между масштабом и подгонкой в ​​sklearn? - PullRequest
0 голосов
/ 09 марта 2020

Я новичок в области обработки данных, и когда я просматривал один из блогов kaggle , я увидел, что пользователь использует как масштабирование, так и подгонку к набору данных. я пытался понять разницу, просматривая документацию, но не смог понять

Ответы [ 3 ]

1 голос
/ 11 марта 2020

Шкала - это метод нормализации данных, который используется, когда данные в разных объектах имеют несходные значения, например, в одном объекте у вас есть значения в диапазоне от 1 до 10, а в других функциях у вас есть значения в диапазоне от 1000 до 10000.

Где подходящая функция, которая фактически запускает ваше обучение модели

1 голос
/ 09 марта 2020

Трудно понять источник вашей путаницы без какого-либо кода. Внутри предоставленной вами ссылки данные сначала масштабируются с помощью sklearn.preprocessing.scale(), а затем помещаются в sklearn.ensemble.GradientBoostingRegressor.

. Таким образом, операция масштабирования преобразует данные таким образом, что все объекты представлены в одном масштабе, и Операция подбора тренирует модель с указанными данными.

По вашему вопросу кажется, что вы думали, что эти две операции были взаимоисключающими или как-то эквивалентными, но на самом деле это логические последовательные шаги.

В В общем, перед обучением модели данные как-то предварительно обрабатываются (в нашем случае .scale()), а затем обучаются. В sklearn .fit() методы предназначены для обучения (подгонка функций / моделей к данным).

Надеюсь, это имеет смысл!

0 голосов
/ 09 марта 2020

Масштабирование - это преобразование данных, метод, используемый для нормализации диапазона независимых переменных или характеристик данных. Метод подгонки - это тренировочный шаг.

...