Question

У меня есть приведенный ниже фрейм данных с несколькими столбцами даты и его значением:

date         value_1      date        value_2    date         value_3
01-01-1990   1            01-01-1990  2          02-01-1990   4
02-01-1990   3            03-01-1990  20         
                          04-01-1990  30

Вывод: объединить все столбцы даты в столбец даты с расширенными настройками и показать значения соответственно.

date         value_1        value_2    value_3
01-01-1990   1              2          
02-01-1990   3                         4
03-01-1990                  20
04-01-1990                  30

hellpanderr · Answer 1 · 25 сентября 2018

Один из способов состоит в том, чтобы расположить пары дата-значение вертикально в кадре данных

df.columns = ['date_1', 'value_1', 'date_2', 'value_2', 'date_3', 'value_3']

>>> new_df = pd.concat([df[['date_1', 'value_1']].rename(columns={'date_1': 'date'}), df[['date_2', 'value_2']].rename(
columns={'date_2': 'date'}), df[['date_3', 'value_3']].rename(columns={'date_3': 'date'})]).dropna(how='all')

         date  value_1  value_2  value_3
0  01-01-1990      1.0      NaN      NaN
1  02-01-1990      3.0      NaN      NaN
2  01-01-1990      NaN      2.0      NaN
3  03-01-1990      NaN     20.0      NaN
4  04-01-1990      NaN     30.0      NaN
5  02-01-1990      NaN      NaN      4.0

, а затем выполнить groupby

new_df.groupby('date',as_index=False).apply(lambda x:x.ffill().bfill().drop_duplicates())

           date  value_1  value_2  value_3
0 0  01-01-1990      1.0      2.0      NaN
1 1  02-01-1990      3.0      NaN      4.0
2 3  03-01-1990      NaN     20.0      NaN
3 4  04-01-1990      NaN     30.0      NaN

jezrael · Answer 2 · 25 сентября 2018

Сначала необходимо дедуплицировать одинаковые имена столбцов для пар дат со столбцами значений:

s = df.columns.to_series()
mask = df.columns.duplicated(keep=False)
c = np.where(mask, s + '_'  + (s.groupby(s).cumcount() + 1).astype(str) , s)
df.columns = c
print (df)
       date_1  value_1      date_2  value_2      date_3  value_3
0  01-01-1990      1.0  01-01-1990        2  02-01-1990      4.0
1  02-01-1990      3.0  03-01-1990       20         NaN      NaN
2         NaN      NaN  04-01-1990       30         NaN      NaN

Затем выполнить цикл по groupby с лямбда-функцией и разбиением по всем парам, создать столбец дат, удалить пропущенные значения и последнийconcat вместе:

dfs = [x.set_index(x.columns[0]).dropna() 
       for i, x in df.groupby(lambda x: x.split('_')[1], axis=1)]
#print (dfs)

df2 = pd.concat(dfs, axis=1)
print (df2)
            value_1  value_2  value_3
01-01-1990      1.0      2.0      NaN
02-01-1990      3.0      NaN      4.0
03-01-1990      NaN     20.0      NaN
04-01-1990      NaN     30.0      NaN

РЕДАКТИРОВАТЬ:

Ответ был изменен для столбцов даты и времени и следующих двух столбцов значений данных:

print (df)
  date_security  GH_LAST_PRICE Val  GH_VOLUME_PRICE Val date_security  \
0    01-01-1990                1.0                  7.0    01-01-1990   
1    01-02-1990                3.0                  8.0    03-01-1990   
2           NaN                NaN                  NaN    04-01-1990   

   DG_LAST_PRICE Val  DG_VOLUME_PRICE Val  
0                  2                 10.0  
1                 20                  NaN  
2                 30                  1.0

Создать MultiIndex:

df.columns = [(np.arange(len(df.columns)) // 3).astype(str), df.columns]
print (df)
#              0                                                   1  \
  date_security GH_LAST_PRICE Val GH_VOLUME_PRICE Val date_security   
0    01-01-1990               1.0                 7.0    01-01-1990   
1    01-02-1990               3.0                 8.0    03-01-1990   
2           NaN               NaN                 NaN    04-01-1990   


  DG_LAST_PRICE Val DG_VOLUME_PRICE Val  
0                 2                10.0  
1                20                 NaN  
2                30                 1.0  

dfs = [x.set_index(x.columns[0]).dropna()
       for i, x in df.groupby(level=0, axis=1)]


df2 = pd.concat(dfs, axis=1)
#flatten MultiIndex
df2.columns = df2.columns.map('_'.join)
print (df2)
            0_GH_LAST_PRICE Val  0_GH_VOLUME_PRICE Val  1_DG_LAST_PRICE Val  \
01-01-1990                  1.0                    7.0                  2.0   
01-02-1990                  3.0                    8.0                  NaN   
04-01-1990                  NaN                    NaN                 30.0   

            1_DG_VOLUME_PRICE Val  
01-01-1990                   10.0  
01-02-1990                    NaN  
04-01-1990                    1.0

Как объединить несколько столбцов даты в один в пандах?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как объединить несколько столбцов даты в один в пандах?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов