Я работаю с набором данных диабета Pima и хочу создать бункеры для поля глюкозы. Набор данных доступен по адресу:
https://www.kaggle.com/uciml/pima-indians-diabetes-database/download
В соответствии с этим руководством:
https://www.qimacros.com/histogram-excel/how-to-determine-histogram-bin-interval/
Этот набор данных имеет 769 регистров, поэтому я долженвозьмите квадратный корень из этого значения и дайте мне примерное количество бинов, которое равно 27.
Затем для расчета ширины бинов я следую формуле:
Ширина бина = (Макс-мин) /Количество бинов
Приведенная выше формула дала мне значение 7, что означает, что мои значения будут как 0,7,14 ... и так далее. Пока что я кодировал следующее:
gBins=list(range(0,200,7))
gBins.append(199)
glC=pd.cut(f["Glucose"],gBins,labels=list(range(0,29)))
f["Glucose"]=glC
Часть меток была из-за того, что длина gBins равна 30, и это говорит о том, что список меток должен быть на одно число меньше длины. У меня проблема в том, что когда я сохраняю свой фрейм данных в CSV-файл, я обнаружил, что есть некоторые пустые пробелы или NaN пробелы, почему это происходит?
Любая помощь?