Question

У меня есть датафрейм, т. Е.

Input Dataframe

      class  section  sub  marks  school  city
0     I      A        Eng  80     jghss   salem
1     I      A        Mat  90     jghss   salem 
2     I      A        Eng  50     Nan     salem 
3     III    A        Eng  80     gphss   Nan
4     III    A        Mat  45     Nan     salem
5     III    A        Eng  40     gphss   Nan
6     III    A        Eng  20     gphss   salem
7     III    A        Mat  55     gphss   Nan

Мне нужно заменить "Nan" в "school" и "city", когда значения в столбцах "class" и "section" совпадают.Предполагаемый результат: входной кадр данных

      class  section  sub  marks  school  city
0     I      A        Eng  80     jghss   salem
1     I      A        Mat  90     jghss   salem 
2     I      A        Eng  50     jghss   salem 
3     III    A        Eng  80     gphss   salem
4     III    A        Mat  45     gphss   salem
5     III    A        Eng  40     gphss   salem
6     III    A        Eng  20     gphss   salem
7     III    A        Mat  55     gphss   salem

Кто-нибудь может мне помочь в этом?

jezrael · Answer 1 · 28 марта 2019

Использовать прямое и обратное заполнение пропущенных значений для групп с lambda function в столбцах, указанных в списке с помощью DataFrame.groupby - необходимо для каждой комбинации одинаковые значения для групп:

cols = ['school','city']
df[cols] = df.groupby(['class','section'])[cols].apply(lambda x: x.ffill().bfill())
print (df)
  class section  sub  marks school   city
0     I       A  Eng     80  jghss  salem
1     I       A  Mat     90  jghss  salem
2     I       A  Eng     50  jghss  salem
3   III       A  Eng     80  gphss  salem
4   III       A  Mat     45  gphss  salem
5   III       A  Eng     40  gphss  salem
6   III       A  Eng     20  gphss  salem
7   III       A  Mat     55  gphss  salem

Quang Hoang · Answer 2 · 28 марта 2019

Предполагая, что каждая пара class и section соответствует уникальной паре school и city, мы можем использовать groupby:

# create a dictionary of class and section with school and city
# here we assume that for each pair and class there's a row with both school and city
# if that's not the case, we can separate the two series 
school_city_dict = df[['class', 'section','school','city']].dropna().\
                     groupby(['class', 'section'])[['school','city']].\
                     max().to_dict()
# school_city_dict = {'school': {('I', 'A'): 'jghss', ('III', 'A'): 'gphss'},
#                     'city': {('I', 'A'): 'salem', ('III', 'A'): 'salem'}}

# set index, prepare for map function
df.set_index(['class','section'], inplace=True)

df.loc[:,'school'] = df.index.map(school_city_dict['school'])
df.loc[:,'city'] = df.index.map(school_city_dict['city'])

# reset index to the original
df.reset_index()

Pandas Dataframe заменяет Nan из строки, когда значение столбца соответствует

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pandas Dataframe заменяет Nan из строки, когда значение столбца соответствует

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы