Я стремлюсь генерировать некоторые синтетические c данные из 1000 строк (которые должны быть представлены в pd.DataFrame
объекте), заполненные набором категориальных переменных.
Предположим, у меня есть объект dict всех возможных категориальных переменных. которые могут существовать.
Список отсортирован в порядке приоритетов, с 'Aaa'
наивысшим приоритетом и 'NR'
наименьшим приоритетом.
credit_score_types = {
'Aaa':0,
'Aa1':1,
'Aa2':2,
'Aa3':3,
'A1':4,
'A2':5,
'A3':6,
'Baa1':7,
'Baa2':8,
'Baa3':9,
'Ba1':10,
'Ba2':11,
'Ba3':12,
'B1':13,
'B2':14,
'B3':15,
'Caa':16,
'Ca':17,
'C':18,
'e, p':19,
'WR':20,
'unsolicited':21,
'NR':22
}
Объект dict
key
с медиана value
будет представлять собой «пик» нормального распределения .
В этом случае 'Ba2'
будет «пиком» Нормальное распределение .
Ожидаемый результат:
Произвольно назначить pd.DataFrame
с 1000 строками (или заполненный list
с длиной 1000 ) используя категориальные переменные из вышеприведенного объекта dict
. Присвоение категориальных переменных будет следовать нормальному распределению.
'Baa2'
будет иметь наибольшее количество.
Если гистограмма строится со счетчиком каждого категориального вхождения, я бы наблюдал график нормально распределенной формы (аналогично приведенному ниже).