Распределение функций почти нормально: что это означает для моей модели ML? - PullRequest
0 голосов
/ 07 января 2019

В утверждении моего упражнения говорится: distribution of feature_3 is a hint of how the data is generated. Я пытаюсь понять, что я должен из этого сделать для остальной части моей модели ETL или ML ..

Я построил график Q-Q этой функции. Распределение кажется довольно нормальным. Что я могу извлечь из этой информации для остальной части моей модели ETL или ML?

1 Ответ

0 голосов
/ 07 января 2019

Большинство моделей машинного обучения предполагают базовое распределение данных для их нормального функционирования.

Итак, возвращаясь к вашему вопросу, есть несколько ML методов, которые предполагают, что данные, поступающие в них, нормально (или гауссовски) распределены. Это модели Gaussian naive Bayes, Least Squares based (regression), LDA, QDA. Таким образом, утверждение, на которое вы ссылаетесь, подразумевает, что ваши данные были сгенерированы с использованием такого алгоритма и обычно распределяются. См. здесь для краткого визуального объяснения этого и здесь для объяснения важности нормального распределения в Machine Learning.

Кроме того, обратите внимание, что существуют другие алгоритмы (например, SVM s, Random Forests, используемые для regression / classification, Decision trees, Gradient Boosted Trees и т. Д.), Которые не предполагают какой-либо базовый тип Распределение данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...