Question

Допустим, у меня есть df, где в определенном столбце пропущены значения на 50%.

Как можно отбросить, скажем, 10% строк, в которых отсутствуют значения по отношению к столбцу?

Как я могу уменьшить процент пропущенных значений столбца с 50% до 40%?

Ввод (пропущено 50% значений (6/12)):

Вывод (40% значений отсутствуют (4/10)): мы отбросили последние 2 строки NaN с идентификаторами 8 и 10

Mstaino · Answer 1 · 11 февраля 2019

Чтобы получить массив с индексами со значениями nan в вашем столбце, используйте:

nan_indices = df.index[df['your_column'].isna()]

Чтобы отбросить, скажем, первые 20%, используйте:

df.drop(nan_indices[:int(len(nan_indices) * 0.2)])   #to create a new DataFrame, if you want to modify the original one, put inplace=True

markuscosinus · Answer 2 · 11 февраля 2019

Попробуйте это:

# find  NaN entries in your df
nanEntries = df[pd.isnull(df)].index.tolist()
# choose 10% randomly
dropIndices = np.random.choice(nanEntries, size = int(df.shape[0]*0.1))
# drop them
df.drop(dropIndices)

Как отбросить процент строк, где значение столбца равно NaN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как отбросить процент строк, где значение столбца равно NaN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов