В общем случае данные реального мира не совсем соответствуют «хорошему» распределению, как нормальное распределение или распределение Вейбулла.
Как и в случае машинного обучения, выборка из распределения точек данных, как правило, состоит из двух этапов:
Там Есть несколько способов оценить распределение данных и выборки из этой оценки:
- Оценка плотности ядра.
- Модели гауссовой смеси.
- Гистограммы.
- Модели регрессии.
- Другие модели машинного обучения.
Кроме того, такие методы, как оценка максимального правдоподобия , позволяют соответствовать известному распределению (например, нормальному распределению) для данных, но предполагаемое распределение обычно грубее, чем при оценке плотности ядра или других моделях машинного обучения.
См. также мой раздел " Случайные числа из Распределение данных Poi NTS ».