Большинство моделей машинного обучения предполагают базовое распределение данных для их нормального функционирования.
Итак, возвращаясь к вашему вопросу, есть несколько ML
методов, которые предполагают, что данные, поступающие в них, нормально (или гауссовски) распределены. Это модели Gaussian naive Bayes
, Least Squares based (regression)
, LDA
, QDA
. Таким образом, утверждение, на которое вы ссылаетесь, подразумевает, что ваши данные были сгенерированы с использованием такого алгоритма и обычно распределяются. См. здесь для краткого визуального объяснения этого и здесь для объяснения важности нормального распределения в Machine Learning
.
Кроме того, обратите внимание, что существуют другие алгоритмы (например, SVM
s, Random Forests
, используемые для regression
/ classification
, Decision trees
, Gradient Boosted Trees
и т. Д.), Которые не предполагают какой-либо базовый тип Распределение данных.