Python 3 - Pandas - Отсутствующие данные и значения группировки - PullRequest
1 голос
/ 03 августа 2020

У меня есть приведенный ниже код, который извлекает данные из файла CSV, и я хочу выполнить некоторый анализ одной из переменных в наборе данных. Переменная - это объектный тип данных, в котором много пропущенных значений. Поэтому я использую pd.to_numeri c, чтобы преобразовать их в NaN. Затем я создаю несколько бункеров (1,2,3,4,5) для категоризации значений переменной. Однако я хотел бы включить NaN в качестве категории или бина в новую переменную ("variable_q"). Например, как категория «Нет данных». Это возможно? Как я могу это сделать? Я что-нибудь упустил>

import pandas as pd
import numpy as np

data=pd.read_csv("dataset.csv")

data["variable"]=pd.to_numeric(data["variable"],errors="coerce")

data["variable_q"]=pd.cut(x=data["variable"],bins=[1,2,3,4,5],labels=["Low","Moderate","High","Extremely High"])

Большое спасибо!

1 Ответ

0 голосов
/ 04 августа 2020

Ну, я делаю частотное распределение для переменной и только что понял, что добавление dropna = False в качестве аргумента в приведенном ниже коде решает проблему.

Была создана категория NaN! нет необходимости добавлять категорию «Нет данных» в приведенный выше код.

данные ["variable_q"]. value_counts (sort = False, dropna = False)

...