как сделать бункеры с числовыми данными? - PullRequest
0 голосов
/ 13 октября 2019

Я работаю с набором данных диабета Pima и хочу создать бункеры для поля глюкозы. Набор данных доступен по адресу:

https://www.kaggle.com/uciml/pima-indians-diabetes-database/download

В соответствии с этим руководством:

https://www.qimacros.com/histogram-excel/how-to-determine-histogram-bin-interval/

Этот набор данных имеет 769 регистров, поэтому я долженвозьмите квадратный корень из этого значения и дайте мне примерное количество бинов, которое равно 27.

Затем для расчета ширины бинов я следую формуле:

Ширина бина = (Макс-мин) /Количество бинов

Приведенная выше формула дала мне значение 7, что означает, что мои значения будут как 0,7,14 ... и так далее. Пока что я кодировал следующее:

    gBins=list(range(0,200,7))
    gBins.append(199)
    glC=pd.cut(f["Glucose"],gBins,labels=list(range(0,29)))
    f["Glucose"]=glC

Часть меток была из-за того, что длина gBins равна 30, и это говорит о том, что список меток должен быть на одно число меньше длины. У меня проблема в том, что когда я сохраняю свой фрейм данных в CSV-файл, я обнаружил, что есть некоторые пустые пробелы или NaN пробелы, почему это происходит?

Любая помощь?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...