Question

У меня есть df, который имеет некоторые значения NaN. Например, вот df:

import numpy as np
import pandas as pd

np.random.seed(100)
data = np.random.rand(10,3)
data[3,0] = np.NaN
data[6,0] = np.NaN

data[5,1] = np.NaN
data[7,1] = np.NaN

data[1,2] = np.NaN
data[8,2] = np.NaN
data[6,2] = np.NaN

df = pd.DataFrame(data)
df

вот результат запуска приведенного выше кода:

    0           1           2
0   0.543405    0.278369    0.424518
1   0.844776    0.004719    NaN
2   0.670749    0.825853    0.136707
3   NaN         0.891322    0.209202
4   0.185328    0.108377    0.219697
5   0.978624    NaN         0.171941
6   NaN         0.274074    NaN
7   0.940030    NaN         0.336112
8   0.175410    0.372832    NaN
9   0.252426    0.795663    0.015255

Я хочу, чтобы значения NaN были заполнены средним значением верхнего и нижнего значений, как показано ниже:

np.random.seed(100)
data = np.random.rand(10,3)
data[3,0] = (data[2,0] + data[4,0])/2
data[6,0] = (data[5,0] + data[7,0])/2

data[5,1] = (data[4,1] + data[6,1])/2
data[7,1] = (data[6,1] + data[8,1])/2

data[1,2] = (data[0,2] + data[2,2])/2
data[8,2] = (data[7,2] + data[9,2])/2
data[6,2] = (data[5,2] + data[7,2])/2
df = pd.DataFrame(data)
df

Результат кода выше:

    0           1           2
0   0.543405    0.278369    0.424518
1   0.844776    0.004719    0.280612
2   0.670749    0.825853    0.136707
3   0.428039    0.891322    0.209202
4   0.185328    0.108377    0.219697
5   0.978624    0.191225    0.171941
6   0.959327    0.274074    0.254026
7   0.940030    0.323453    0.336112
8   0.175410    0.372832    0.175683
9   0.252426    0.795663    0.015255

Как я могу автоматически сделать это в Python?

Alexander · Answer 1 · 13 сентября 2018

Использование интерполяции в соответствии с вашими спецификациями (только одна строка указателя):

df.interpolate(method='index', limit=1)

Или выполнение напрямую, используя combine_first:

fills = 0.5 * (df.fillna(method='ffill', limit=1) 
               + df.fillna(method='bfill', limit=1))
df.combine_first(fills)

sarath sahadevan · Answer 2 · 13 сентября 2018

Точнее, используя склеарн

from sklearn.preprocessing import Imputer

mean_imputer = Imputer(missing_values='NaN', strategy='mean', axis=0)

mean_imputer = mean_imputer.fit(df)

imputed_df = mean_imputer.transform(df.values)


imputed_df

   [0.54340494, 0.27836939, 0.42451759],
   [0.84477613, 0.00471886, 0.21620453],
   [0.67074908, 0.82585276, 0.13670659],
   [0.5738436 , 0.89132195, 0.20920212],
   [0.18532822, 0.10837689, 0.21969749],
   [0.97862378, 0.44390102, 0.17194101],
   [0.5738436 , 0.27407375, 0.21620453],
   [0.94002982, 0.44390102, 0.33611195],
   [0.17541045, 0.37283205, 0.21620453],
   [0.25242635, 0.79566251, 0.01525497]]

jezrael · Answer 3 · 13 сентября 2018

Я думаю DataFrame.interpolate должно помочь здесь:

df1 = df.interpolate()
print (df1)
          0         1         2
0  0.543405  0.278369  0.424518
1  0.844776  0.004719  0.280612
2  0.670749  0.825853  0.136707
3  0.428039  0.891322  0.209202
4  0.185328  0.108377  0.219697
5  0.978624  0.191225  0.171941
6  0.959327  0.274074  0.254026
7  0.940030  0.323453  0.336112
8  0.175410  0.372832  0.175683
9  0.252426  0.795663  0.015255

Если есть несколько последовательных NaN s interpolate, его нельзя заменить на mean:

np.random.seed(100)
data = np.random.rand(10,3)
data[3,0] = np.NaN
data[6,0] = np.NaN

data[5,1] = np.NaN
data[7,1] = np.NaN

data[1,2] = np.NaN
data[2,2] = np.NaN
data[8,2] = np.NaN
data[6,2] = np.NaN

df = pd.DataFrame(data)
print (df)
          0         1         2
0  0.543405  0.278369  0.424518
1  0.844776  0.004719       NaN
2  0.670749  0.825853       NaN
3       NaN  0.891322  0.209202
4  0.185328  0.108377  0.219697
5  0.978624       NaN  0.171941
6       NaN  0.274074       NaN
7  0.940030       NaN  0.336112
8  0.175410  0.372832       NaN

df1 = df.interpolate()
print (df1)
          0         1         2
0  0.543405  0.278369  0.424518
1  0.844776  0.004719  0.352746
2  0.670749  0.825853  0.280974
3  0.428039  0.891322  0.209202
4  0.185328  0.108377  0.219697
5  0.978624  0.191225  0.171941
6  0.959327  0.274074  0.254026
7  0.940030  0.323453  0.336112
8  0.175410  0.372832  0.175683
9  0.252426  0.795663  0.015255

Решение для среднего значения:

df2 = df.ffill().add(df.bfill()).div(2)
print (df2)
          0         1         2
0  0.543405  0.278369  0.424518
1  0.844776  0.004719  0.316860
2  0.670749  0.825853  0.316860
3  0.428039  0.891322  0.209202
4  0.185328  0.108377  0.219697
5  0.978624  0.191225  0.171941
6  0.959327  0.274074  0.254026
7  0.940030  0.323453  0.336112
8  0.175410  0.372832  0.175683
9  0.252426  0.795663  0.015255

Как заполнить значения NaN столбца, используя среднее значение окружающих (верхних и нижних) значений этого столбца?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как заполнить значения NaN столбца, используя среднее значение окружающих (верхних и нижних) значений этого столбца?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов