Question

У меня есть фрейм данных, в котором столбец содержит неравные списки кортежей.Все кортежи будут одинаковой длины, только списки будут неравномерными.Я хочу растопить этот столбец в кадре, чтобы новые столбцы добавлялись к существующему, а строки дублировались.Вот так:

df
   name     id       list_of_tuples
0  john doe    abc-123  [('cat',100,'xyz-123'),('cat',96,'uvw-456')]
1  bob smith    def-456  [('dog',98,'rst-789'),('dog',97,'opq-123'),('dog',95,'lmn-123')]
2  bob parr    ghi-789  [('tree',100,'ijk-123')]

df_new
   name            id       val_1 val_2 val_3
0  john doe        abc-123  cat   100   xyz-123
1  john doe        abc-123  cat   96    uvw-456
2  bob smith       def-456  dog   98    rst-789
3  bob smith       def-456  dog   97    opq-123
4  violet parr     def-456  dog   95    lmn-123
5  violet parr     ghi-789  tree  100   ijk-123

Для моего текущего метода я создаю новый фрейм данных, в котором я использую функцию цепочки из itertools, но я хочу уйти от создания целого другого фрейма данных и объединения его обратнов столбце «id».

Вот мой текущий код:

df_new = pd.DataFrame(list(chain.from_iterable(df.matches)),columns=['val_1','val_2','val_3']).reset_index(drop=True)
df_new['id'] = np.repeat(df.id.values, df['list_of_tuples'].str.len())

Scott Boston · Answer 1 · 25 июня 2018

Позвольте использовать apply с pd.Series:

df.set_index('id').list_of_tuples  #Set id as index and select list_of_tuples column
  .apply(pd.Series)                #apply pd.series to separate elements of list 
  .stack()                         #stack the elements vertically
  .apply(pd.Series)                #apply pd.Series to separate elements of tuples
  .add_prefix('val_')              #add prefix of val_ to all columns
  .reset_index()                   #Reset index to move id back into frame as column
  .drop('level_1', axis=1)         #Drop not need level_1 column from stack

Вывод:

        id val_0  val_1    val_2
0  abc-123   cat    100  xyz-123
1  abc-123   cat     96  uvw-456
2  def-456   dog     98  rst-789
3  def-456   dog     97  opq-123
4  def-456   dog     95  lmn-123
5  ghi-789  tree    100  ijk-123

Отредактировано для обработки вопроса о добавлении имени в dataframe:

df.set_index(['name','id']).list_of_tuples
  .apply(pd.Series)
  .stack()
  .apply(pd.Series)
  .add_prefix('val_')
  .reset_index(level=-1,drop=True)
  .reset_index()

Выход:

        name       id val_0  val_1    val_2
0   John Doe  abc-123   cat    100  xyz-123
1   John Doe  abc-123   cat     96  uvw-456
2  Bob Smith  def-456   dog     98  rst-789
3  Bob Smith  def-456   dog     97  opq-123
4  Bob Smith  def-456   dog     95  lmn-123
5   Bob Parr  ghi-789  tree    100  ijk-123

WeNYoBen · Answer 2 · 25 июня 2018

удалите ваш список, тогда мы сделаем concat

s=df.list_of_tuples
pd.concat([pd.DataFrame({'id':df.id.repeat(s.str.len())}).reset_index(drop=True),pd.DataFrame(np.concatenate(s.values))],axis=1)
Out[118]: 
        id     0    1        2
0  abc-123   cat  100  xyz-123
1  abc-123   cat   96  uvw-456
2  def-456   dog   98  rst-789
3  def-456   dog   97  opq-123
4  def-456   dog   95  lmn-123
5  ghi-789  tree  100  ijk-123

Преобразовать столбец со списком кортежей во множество столбцов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Преобразовать столбец со списком кортежей во множество столбцов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов