Подгонка моделей распределения к моим эмпирическим данным? или просто использовать данные? - PullRequest
0 голосов
/ 26 июня 2019

Я новичок в моделировании и распределительной настройке.У меня есть два набора данных (один с 4k строк; другой с 300k строк);оба набора данных выглядят следующим образом:

Index | a | b | c | d
1
2
3
..
n

где a, b значения в диапазоне от 21 000 до 8 миллионов (int), c от 0 до 300k (десятичное число) и d от 300 до 100k (десятичное число).

a всегда больше или равно b (a> = b), c является независимым, b & d связано друг с другом (но не является линейным отношением).Таким образом, a & b имеют отношение;У b & d есть отношение.

В моем моделировании мне нужно сгенерировать N строк, где Ni имеет значения a, b, c, d.Я думал либо взять образцы из имеющихся у меня наборов данных.Но это не позволит мне иметь различные комбинации a, b, c и d.

Другой способ - подобрать модели и пройти некоторые тесты на качество.Это то, в чем я не уверен, так как мои данные должны соответствовать трем моделям, я думаю.

1: for a and b --> both over 21,000 and a >= b
2: for c
3: for b and d

Я не могу подобрать каждый столбец по отдельности, а затем произвести выборку из каждого по отдельности.Каков наилучший академический подход для достижения этой цели, и как это можно сделать в python?

Я надеюсь, что мой вопрос ясен, извините, поскольку моя статистика ограничена, и это первый раз, когда я имею дело с такимпример.Я надеюсь, что вы дадите мне несколько отзывов или подсказок, чтобы помочь мне.Я могу предоставить цифры или образцы, если это поможет.

...